基于χ~2统计的文本分类特征选择方法研究

摘要	第1-6页
Abstract	第6-10页
第一章绪论	第10-14页
·研究背景和意义	第10-11页
·国内外研究现状	第11-12页
·本文所做的工作和组织结构	第12-14页
第二章文本分类相关技术	第14-23页
·文档预处理	第14-15页
·文档表示模型	第15-16页
·布尔模型	第15页
·向量空间模型	第15-16页
·概率模型	第16页
·权重计算	第16-18页
·维数约简	第18-19页
·文本分类算法	第19-21页
·K 近邻	第19-20页
·决策树	第20页
·朴素贝叶斯	第20-21页
·支持向量机	第21页
·文本分类性能评价指标	第21-22页
·本章小结	第22-23页
第三章特征选择方法研究	第23-34页
·特征选择概述	第23页
·文档频率	第23-24页
·信息增益	第24页
·互信息	第24-25页
·最优正交质心	第25-26页
·χ~2统计	第26-33页
·传统χ~2统计方法的缺陷	第27-29页
·已有χ~2统计改进方法	第29页
·本文χ~2统计改进方法	第29-33页
·本章小结	第33-34页
第四章实验与结果分析	第34-46页
·语料库	第34-36页
·复旦大学语料库	第34-35页
·Reuters-21578	第35-36页
·搜狗语料库	第36页
·实验设计	第36-39页
·实验结果与分析	第39-45页
·本章小结	第45-46页
第五章总结与展望	第46-48页
·总结	第46页
·下一步工作展望	第46-48页
参考文献	第48-51页
附录 1 复旦大学语料库传统χ~2统计部分类别的前 25 个特征	第51-54页
附录 2 复旦大学语料库本文χ~2统计改进方法部分类别的前 25 个特征	第54-57页
攻读硕士学位期间取得的研究成果	第57-58页
致谢	第58-59页
附件	第59页