首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

中文网页获取及自动分类技术研究

摘要第1-5页
Abstract第5-10页
第1章 引言第10-14页
   ·课题背景第10-11页
   ·国内外研究现状第11-12页
   ·本文拟解决的关键性问题第12页
   ·本文所做的工作第12-14页
第2章 网页自动获取第14-32页
   ·网页自动获取流程第14-16页
   ·关于Google Web API第16-24页
     ·Google APIs的主要方法和约束条件第16-17页
     ·Google APIs的约束条件第17-18页
     ·用Google Web API构建Java应用程序第18-24页
   ·构造正则表达式第24-28页
     ·使用正则表达式第25-26页
     ·正则表达式语法第26-27页
     ·使用正则表达式匹配出网页中包含的URL第27-28页
   ·获取网页实验结果第28-32页
     ·创建一个简单搜索的实验结果第28-29页
     ·获取URL实验结果第29-30页
     ·获取网页的搜索结果第30页
     ·使用正则表达式匹配出网页中的URL实验结果第30-31页
     ·小结第31-32页
第3章 网页预处理第32-40页
   ·网页清洗第32-33页
     ·网页清洗方法第32-33页
     ·网页清洗的实现第33页
   ·中文分词技术第33-40页
     ·中文自动分词的研究与发展现状第33-34页
     ·中文词的特点第34-35页
     ·中文分词技术第35-38页
     ·中文分词系统ICTCLAS介绍第38-40页
第4章 特征词提取方法第40-54页
   ·中文文本特征表示模型第40-44页
     ·布尔模型第40-41页
     ·概率模型第41-42页
     ·向量空间模型第42-44页
   ·特征词提取概述第44-47页
     ·定义第44页
     ·文本特征提取的发展第44-45页
     ·文本特征表示方法第45-47页
   ·特征词提取方法介绍第47-48页
   ·基于词性的特征词提取方法第48-51页
   ·降低特征向量维数第51-52页
   ·特征词权重的计算第52-53页
   ·特征提取算法实验结果第53-54页
第5章 中文网页分类方法研究第54-69页
   ·中文网页自动分类过程第54-55页
   ·文本自动分类算法类型介绍第55-56页
   ·训练库的建立第56-58页
   ·文本相似度算法研究第58-62页
     ·简单向量距离分类方法第58页
     ·贝叶斯分类方法第58-59页
     ·决策树分类法第59-60页
     ·支持向量机分类算法第60-61页
     ·KNN(K最近邻)分类算法第61-62页
   ·改进的KNN算法研究第62-63页
   ·评估方法第63-64页
   ·实验结果第64-69页
第6章 结束语第69-71页
   ·总结第69-70页
   ·今后工作的展望第70-71页
参考文献第71-74页
致谢第74-75页
攻读硕士研究生期间所发表的论文第75页

论文共75页,点击 下载论文
上一篇:对韭蛆具生物活性的Bt的筛选及其特性研究
下一篇:西部煤中矿物质的非均匀分布及成灰模拟