常用文本分类算法的分析与研究

中文摘要	第3-4页
英文摘要	第4页
1 绪论	第7-10页
1.1 问题的提出及研究意义	第7-8页
1.1.1 问题的提出	第7页
1.1.2 研究的意义	第7-8页
1.2 国内外研究现状	第8-9页
1.3 本文研究的目的和研究内容	第9-10页
1.3.1 研究目的	第9页
1.3.2 研究的主要内容	第9-10页
2 文本分类相关技术	第10-23页
2.1 文本分类概述	第10页
2.2 数据预处理	第10-12页
2.2.1 去除非法格式字符和大小写转换	第11页
2.2.2 中文分词	第11-12页
2.2.3 去除停用词	第12页
2.3 权重计算	第12-14页
2.4 文本表示	第14-15页
2.4.1 布尔逻辑模型	第14页
2.4.2 向量空间模型	第14页
2.4.3 词向量模型	第14-15页
2.5 特征选择	第15-18页
2.5.1 文档频率	第15-16页
2.5.2 信息增益	第16页
2.5.3 卡方拟和检验	第16-17页
2.5.4 互信息	第17-18页
2.6 单一分类算法	第18-20页
2.6.1 朴素贝叶斯算法	第18-19页
2.6.2 KNN算法	第19页
2.6.3 决策树算法	第19-20页
2.7 集成学习	第20-21页
2.7.1 基于Boosting的集成学习算法	第20-21页
2.7.2 基于Bagging的集成学习算法	第21页
2.8 分类评价方法	第21-22页
2.9 本章小结	第22-23页
3 文本分类算法的实证分析	第23-30页
3.1 单一分类模型实证分析	第23-26页
3.1.1 数据来源	第23页
3.1.2 文本预处理	第23-24页
3.1.3 模型建立及效果比较	第24-26页
3.2 集成学习分类实证分析	第26-29页
3.3 本章小结	第29-30页
4 规模数据下文本分类	第30-34页
4.1 实验数据	第30-31页
4.2 文本处理	第31页
4.3 模型建立	第31-33页
4.4 本章小结	第33-34页
5 总结展望	第34-35页
5.1 主要结论	第34页
5.2 后续研究工作的展望	第34-35页
致谢	第35-36页
参考文献	第36-38页
附录	第38-47页