基于层次分类和集成学习的文本分类技术研究

摘要	第1-3页
Abstract	第3-7页
第一章引言	第7-10页
·研究背景和研究意义	第7-8页
·本文研究内容	第8-9页
·本文组织	第9-10页
第二章文本分类概述	第10-28页
·文本分类的定义	第10页
·文本分类系统的组成	第10-12页
·文本预处理	第12-14页
·去除文档中的格式标记	第12页
·过滤非法字符和字母大小写转换	第12页
·去除停用词和稀有词	第12-13页
·词干化处理	第13页
·中文分词处理	第13-14页
·文档表示	第14-17页
·布尔权重	第15页
·词频权重	第15-16页
·TF_IDF 权重	第16页
·TFC 权重	第16页
·ITC 权重	第16-17页
·熵权重	第17页
·维数约减	第17-20页
·文档频数	第18页
·信息增益	第18-19页
·互信息	第19-20页
·χ~2 统计量	第20页
·经典文本分类算法	第20-26页
·KNN 分类算法	第20-21页
·Rocchio 算法	第21页
·Naive Bayes 算法	第21-22页
·决策树算法	第22-23页
·神经网络	第23页
·支持向量机	第23-26页
·评价方法	第26-28页
第三章层次文本分类技术	第28-44页
·引言	第28-29页
·层次学习概述	第29-31页
·概念	第29页
·多层次的分类体系	第29-30页
·层次分类与平坦分类的比较	第30-31页
·层次学习算法	第31-34页
·层次特征选择	第31-32页
·改进的层次分类算法	第32-34页
·实验设计和实验结果	第34-43页
·文档集	第34-35页
·实验设计	第35-36页
·结果分析	第36-43页
·小结	第43-44页
第四章集成学习的文本分类模型研究	第44-60页
·集成分类器介绍	第44-46页
·集成分类器集成研究的产生和现状	第44页
·分类器输出信息描述	第44-45页
·多分类器集成类型	第45-46页
·集成学习的理论背景	第46-49页
·随机森林的收敛性[45]	第46-47页
·集成分类器的分类强度和相关性	第47-49页
·基于集成学习的文本分类算法	第49-54页
·个体分类器的生成	第49-50页
·个体分类器的选择	第50-53页
·集成分类器算法	第53-54页
·实验设计和实验结果	第54-59页
·实验设计	第54-55页
·实验结果与分析	第55-57页
·个体选择实验	第57-59页
·小结	第59-60页
第五章总结和展望	第60-62页
·总结	第60-61页
·未来工作	第61-62页
参考文献	第62-64页
致谢	第64-65页
个人简历	第65-66页