互联网中文文本分类的研究与应用

摘要	第1-5页
ABSTRACT	第5-10页
第一章绪论	第10-12页
·研究背景	第10页
·论文主要工作	第10-11页
·本文的组织	第11-12页
第二章关键技术	第12-38页
·文本分类研究进展	第12-13页
·分词	第13-17页
·中文分词方法	第13-16页
·分词难点	第16-17页
·停用词处理	第17-19页
·停用词自动抽取方法	第18页
·将虚词加入停用词表	第18-19页
·同义词合并	第19页
·选取特征词	第19-24页
·文档频率(Document Frequency,DF)	第20页
·χ~2统计量(CHI)	第20-21页
·信息增量(Information Gain)	第21-22页
·互信息(Mutual Information)	第22页
·期望交叉熵(Expected Cross Entropy)	第22-23页
·优势率(Odds Ratio)	第23页
·文本证据权(Weight of Evidence for Text)	第23-24页
·词强度(Term Strength)	第24页
·特征加权	第24-26页
·布尔权重(Boolean Weighting)	第25页
·基于熵概念的权重(Entropy Weighting)	第25页
·特征频率(Term Frequency,TF)	第25页
·TF-IDF(Term Frequency-Inverse Document Frequency)	第25-26页
·分类算法	第26-34页
·决策树	第27-29页
·朴素贝叶斯	第29-31页
·kNN方法	第31-33页
·人工神经网络方法	第33页
·支持向量机方法	第33-34页
·文本分类语料库	第34-35页
·分类性能的评估	第35-36页
·本章小结	第36-38页
第三章系统需求分析与总体设计	第38-43页
·系统需求分析	第38-39页
·系统功能性需求分析	第38页
·系统非功能性需求	第38-39页
·系统模块划分与设计	第39-40页
·数据库设计	第40-41页
·本章小结	第41-43页
第四章系统详细设计与算法实现	第43-52页
·信息采集模块设计与实现	第43-47页
·UILogic	第44-45页
·SearchOption	第45-46页
·RemoveDuplicateProcessor	第46页
·取消robot.txt的限制	第46-47页
·文本抽取模块设计与实现	第47-49页
·基于文本块正文提取算法	第47-48页
·算法具体实现	第48-49页
·分类器算法实现	第49-51页
·贝叶斯分类器实现	第49-50页
·决策树算法实现	第50-51页
·k近邻算法实现	第51页
·本章小结	第51-52页
第五章 χ~2统计量算法改进与分析	第52-70页
·处理流程	第52-55页
·分词	第52-53页
·停用词处理	第53-54页
·特征词抽取	第54-55页
·分类学习	第55页
·分类测试结果	第55-60页
·停用词处理对分类效果的影响	第55-56页
·特征词抽取方式对分类效果的影响	第56-57页
·分类算法对分类效果影响	第57-58页
·三个步骤对分类效果的综合影响	第58-60页
·算法改进	第60-69页
·特征词数量对分类效果的影响	第61页
·加入虚词处理	第61-63页
·DF去除停用词数量对分类结果影响	第63-65页
·对χ~2统计量(CHI)算法的改进	第65-68页
·综合改进效果	第68-69页
·本章小结	第69-70页
第六章论文总结和展望	第70-72页
·全文总结	第70页
·下一步工作展望	第70-72页
参考文献	第72-76页
致谢	第76-77页
攻读学位期间的研究成果	第77页
学术论文	第77页