首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

互联网中文文本分类的研究与应用

摘要第1-5页
ABSTRACT第5-10页
第一章 绪论第10-12页
   ·研究背景第10页
   ·论文主要工作第10-11页
   ·本文的组织第11-12页
第二章 关键技术第12-38页
   ·文本分类研究进展第12-13页
   ·分词第13-17页
     ·中文分词方法第13-16页
     ·分词难点第16-17页
   ·停用词处理第17-19页
     ·停用词自动抽取方法第18页
     ·将虚词加入停用词表第18-19页
     ·同义词合并第19页
   ·选取特征词第19-24页
     ·文档频率(Document Frequency,DF)第20页
     ·χ~2统计量(CHI)第20-21页
     ·信息增量(Information Gain)第21-22页
     ·互信息(Mutual Information)第22页
     ·期望交叉熵(Expected Cross Entropy)第22-23页
     ·优势率(Odds Ratio)第23页
     ·文本证据权(Weight of Evidence for Text)第23-24页
     ·词强度(Term Strength)第24页
   ·特征加权第24-26页
     ·布尔权重(Boolean Weighting)第25页
     ·基于熵概念的权重(Entropy Weighting)第25页
     ·特征频率(Term Frequency,TF)第25页
     ·TF-IDF(Term Frequency-Inverse Document Frequency)第25-26页
   ·分类算法第26-34页
     ·决策树第27-29页
     ·朴素贝叶斯第29-31页
     ·kNN方法第31-33页
     ·人工神经网络方法第33页
     ·支持向量机方法第33-34页
   ·文本分类语料库第34-35页
   ·分类性能的评估第35-36页
   ·本章小结第36-38页
第三章 系统需求分析与总体设计第38-43页
   ·系统需求分析第38-39页
     ·系统功能性需求分析第38页
     ·系统非功能性需求第38-39页
   ·系统模块划分与设计第39-40页
   ·数据库设计第40-41页
   ·本章小结第41-43页
第四章 系统详细设计与算法实现第43-52页
   ·信息采集模块设计与实现第43-47页
     ·UILogic第44-45页
     ·SearchOption第45-46页
     ·RemoveDuplicateProcessor第46页
     ·取消robot.txt的限制第46-47页
   ·文本抽取模块设计与实现第47-49页
     ·基于文本块正文提取算法第47-48页
     ·算法具体实现第48-49页
   ·分类器算法实现第49-51页
     ·贝叶斯分类器实现第49-50页
     ·决策树算法实现第50-51页
     ·k近邻算法实现第51页
   ·本章小结第51-52页
第五章 χ~2统计量算法改进与分析第52-70页
   ·处理流程第52-55页
     ·分词第52-53页
     ·停用词处理第53-54页
     ·特征词抽取第54-55页
     ·分类学习第55页
   ·分类测试结果第55-60页
     ·停用词处理对分类效果的影响第55-56页
     ·特征词抽取方式对分类效果的影响第56-57页
     ·分类算法对分类效果影响第57-58页
     ·三个步骤对分类效果的综合影响第58-60页
   ·算法改进第60-69页
     ·特征词数量对分类效果的影响第61页
     ·加入虚词处理第61-63页
     ·DF去除停用词数量对分类结果影响第63-65页
     ·对χ~2统计量(CHI)算法的改进第65-68页
     ·综合改进效果第68-69页
   ·本章小结第69-70页
第六章 论文总结和展望第70-72页
   ·全文总结第70页
   ·下一步工作展望第70-72页
参考文献第72-76页
致谢第76-77页
攻读学位期间的研究成果第77页
 学术论文第77页

论文共77页,点击 下载论文
上一篇:低质量指纹图像增强和匹配算法的研究与实现
下一篇:数据访问代码生成器的设计与实现