基于机器学习的中文文本自动分类的研究和应用

摘要	第1-4页
Abstract	第4-8页
第1章引言	第8-13页
·研究的意义	第8页
·国内外的研究现状	第8-9页
·本课题研究的主要内容	第9-11页
·中文WEB文本的自动抓取	第9-10页
·中文WEB文本的预处理	第10页
·中文文本的自动分类器	第10-11页
·本课题的创新点	第11页
·本文的结构	第11-13页
第2章总体设计	第13-16页
·功能模块	第13-14页
·网络蜘蛛	第13-14页
·中文分词	第14页
·特征选取	第14页
·贝叶斯机器学习及分类	第14页
·开发平台的选择	第14-16页
第3章网络蜘蛛	第16-31页
·网络蜘蛛的遍历策略	第16-17页
·Robots协议	第17-18页
·WEB文本的信息提取	第18-20页
·HTML结构化解析	第20-29页
·HTML中的超链接	第20页
·HTML解析	第20-29页
·网络蜘蛛的实现	第29-31页
第4章中文WEB文本的预处理	第31-40页
·文本内容过滤	第31-32页
·中文分词	第32-37页
·简单扫描匹配法	第33-34页
·扫描及条件决择法	第34-35页
·复杂人工智能方法	第35-37页
·中文分词的实现	第37-40页
·中文词典	第37-39页
·中文词条切分	第39-40页
第5章特征选取	第40-44页
·特征选取算法	第40-42页
·文本频度法	第40-41页
·相关信息量法	第41页
·x~2统计法	第41-42页
·词条频度法	第42页
·特征选取算法的比较与改进	第42-44页
第6章基于贝叶斯学习的文本分类器的实现	第44-48页
·贝叶斯方法与文本分类	第44-45页
·Naive贝叶斯分类方法	第45-46页
·Naive贝叶斯分类方法	第45-46页
·估计概率	第46页
·Naive贝叶斯文本分类器算法	第46-48页
第7章实验与测试分析	第48-53页
·实验运行效果与分析	第48-51页
·文本分类的实验结果与分析	第51-53页
第8章结论	第53-55页
·中文文本分类小结	第53页
·进一步研究的设想	第53-55页
参考文献	第55-58页
致谢	第58-59页
攻读硕士学位期间发表论文情况	第59页