文本分类中特征提取和特征加权方法研究

中文摘要	第1-5页
英文摘要	第5-9页
1 绪论	第9-13页
·研究背景及意义	第9-10页
·国内外研究现状	第10-11页
·本文的结构和研究内容	第11-13页
·本文的研究内容	第11页
·本文的组织	第11-13页
2 文本分类相关技术	第13-30页
·文本分类的定义	第13-14页
·文本表示模型	第14-16页
·文本分类流程	第16-17页
·文本预处理	第17-20页
·分词技术	第17-19页
·去除停用词	第19-20页
·特征降维	第20-21页
·局部降维和全局降维	第20页
·特征抽取和特征提取	第20-21页
·特征加权	第21-22页
·文本分类方法	第22-26页
·朴素贝叶斯算法	第22-23页
·Rocchio 算法	第23-24页
·K-最近邻算法	第24-25页
·支持向量机	第25-26页
·分类系统的评估	第26-28页
·评估方法	第26-27页
·评估指标	第27-28页
·本章小结	第28-30页
3 基于集中度、分散度和频度的特征提取方法	第30-38页
·特征提取的过程	第30-31页
·常用的特征提取方法	第31-34页
·文档频数（Document Frequency，DF）	第31页
·互信息（Mutual Information，MI）	第31-32页
·信息增益（Information Gain，IG）	第32-33页
·期望交叉熵（Expected Cross Entropy，CE）	第33页
·χ~2 统计量（Chi-square Statistic，CHI）	第33-34页
·文本证据权（Weight of Evidence for Text，WET）	第34页
·CDF 特征提取方法	第34-37页
·本章小结	第37-38页
4 结合集中度和分散度改进的 TF-IDF 方法	第38-44页
·TF-IDF 方法的提出	第38-39页
·TF-IDF 方法的不足	第39-40页
·结合集中度、分散度改进的TF-IDF 方法	第40-43页
·本章小结	第43-44页
5 实验方法和结果分析	第44-61页
·中文文本分类系统的实现	第44-47页
·实验结果及其分析	第47-60页
·实验介绍	第47页
·数据集	第47页
·特征提取方法对比实验	第47-53页
·特征加权方法对比实验	第53-60页
·本章小结	第60-61页
6 结论与展望	第61-63页
·研究总结	第61页
·下一步的工作	第61-63页
致谢	第63-64页
参考文献	第64-67页
附录	第67页
A 作者在攻读硕士学位期间发表的论文	第67页
B 作者在攻读硕士学位期间参与的项目	第67页