第一章 绪论 | 第1-13页 |
1.1 文本自动分类研究的背景和意义 | 第7页 |
1.2 问题描述 | 第7-8页 |
1.3 文本自动分类研究的技术动态 | 第8-9页 |
1.3.1 文本自动分类研究在国内外的发展 | 第8-9页 |
1.3.2 文本分类研究的技术现状 | 第9页 |
1.4 基于统计的中文文本自动分类 | 第9-12页 |
1.4.1 基于统计的中文文本自动分类概述 | 第9-11页 |
1.4.2 相关研究文献 | 第11-12页 |
1.5 本文主要工作内容 | 第12-13页 |
第二章 向量空间模型 | 第13-18页 |
2.1 关于VSM的基本概念 | 第13-14页 |
2.2 项的选择 | 第14-15页 |
2.3 项的权重计算 | 第15-16页 |
2.4 关于VSM的讨论 | 第16-18页 |
第三章 关于文本特征 | 第18-24页 |
3.1 特征单元的确定 | 第18-21页 |
3.1.1 基于词典和n-gram相结合的特征单元确定方法 | 第18-20页 |
3.1.2 未登录词识别算法 | 第20-21页 |
3.2 特征选择算法 | 第21-24页 |
第四章 分类学习算法 | 第24-28页 |
4.1 SVM算法描述 | 第24-27页 |
4.2 SVM算法特点 | 第27-28页 |
第五章 评价方法 | 第28-30页 |
第六章 系统设计与试验测试 | 第30-42页 |
6.1 系统模型 | 第30-31页 |
6.2 试验测试 | 第31-42页 |
6.2.1 测试语料 | 第31-32页 |
6.2.2 特征单元获取方法测试 | 第32-33页 |
6.2.3 冗余特征测试试验 | 第33-34页 |
6.2.4 特征抽取算法测试 | 第34-37页 |
6.2.5 分类器的优化试验 | 第37-40页 |
6.2.6 试验总结 | 第40-42页 |
结束语 | 第42-43页 |
致谢 | 第43-44页 |
参考文献 | 第44-46页 |
在读期间研究成果 | 第46-47页 |
附录A | 第47-48页 |
附录B | 第48-49页 |
附录C | 第49页 |