基于VSM的文本分类系统的设计和实现

摘要	第4-5页
Abstract	第5页
目录	第6-8页
第1章绪论	第8-18页
1.1 课题的背景及研究目的	第8-11页
1.2 与课题相关的国内外研究综述	第11-16页
1.2.1 文本分类系统的国内外研究状况	第12-14页
1.2.2 基于外延方法的分类方法	第14-15页
1.2.3 基于语义的文本分类方法	第15-16页
1.3 本文的主要研究内容	第16页
1.4 本文的内容安排	第16-18页
第2章文本分类系统的分析和设计	第18-32页
2.1 需求分析	第18-21页
2.1.1 名词解释	第18页
2.1.2 功能性需求	第18-19页
2.1.3 非功能性需求	第19-21页
2.2 系统技术路线分析	第21-26页
2.2.1 样本整理	第21-22页
2.2.2 特征选取	第22-24页
2.2.3 特征权重的计算	第24-25页
2.2.4 使用支持向量机进行分类和判定	第25-26页
2.3 系统设计	第26-30页
2.3.1 系统功能结构设计	第27-28页
2.3.2 系统整体结构设计	第28-29页
2.3.3 系统的两个主要流程	第29-30页
2.3.4 用户接口设计	第30页
2.4 本章小结	第30-32页
第3章文本预处理模块的设计与实现	第32-52页
3.1 词库的收集管理	第32-33页
3.2 基于隐马尔可夫模型的中文文本分词	第33-42页
3.2.1 N-最短路径分词	第34-37页
3.2.2 基于隐马尔可夫模型的分词	第37-39页
3.2.3 分词工具的实现	第39-42页
3.3 分词模型训练	第42-50页
3.3.1 训练语料说明	第42页
3.3.2 Hadoop 并行计算平台介绍	第42-44页
3.3.3 分词模型训练的实现	第44-50页
3.4 本章小结	第50-52页
第4章文本表示及分类的实现	第52-69页
4.1 特征词筛选方法介绍	第52-54页
4.2 特征词筛选的实现	第54-61页
4.2.1 输入文件格式	第55页
4.2.2 合并同义词	第55-57页
4.2.3 使用 CHI 和互信息提取特征	第57-61页
4.3 特征权重计算	第61-65页
4.3.1 特征值权重计算方法	第61-62页
4.3.2 特征权重计算的实现	第62-65页
4.4 文本分类器	第65-68页
4.4.1 分类器的理论基础	第65-66页
4.4.2 分类器的实现	第66-68页
4.5 本章小结	第68-69页
第5章文本分类系统评测	第69-78页
5.1 测试目的	第69页
5.2 测试环境	第69-70页
5.3 系统功能测试	第70-74页
5.3.1 分词模块功能测试	第70-71页
5.3.2 特征词筛选模块测试	第71页
5.3.3 SVM 封装模块的测试	第71-74页
5.4 系统性能测试	第74-76页
5.5 评测结果	第76-77页
5.6 本章小结	第77-78页
结论	第78-79页
参考文献	第79-83页
致谢	第83-84页
个人简历	第84页