中文文本分类中特征提取算法研究

中文摘要	第1-6页
英文摘要	第6-11页
1 绪论	第11-18页
·问题的提出及其意义	第11-12页
·国内外现状	第12页
·国内研究进展概况	第12-15页
·现有系统存在的缺陷	第15-16页
·本文的研究工作	第16页
·本文的组织结构	第16-18页
2 文本分类概述	第18-27页
·两种文本表示方法	第18-19页
·词袋方式(Bag of Words)	第18页
·N-gram 模型	第18-19页
·向量空间模型	第19页
·常用的分类方法	第19-23页
·k-近邻法(k-Nearest Neighbor )	第19-20页
·支持向量机	第20-22页
·朴素贝叶斯法(Naive Bayes)	第22-23页
·文本分类的评价方法	第23-26页
·查全率与查对率、宏平均与微平均	第24-25页
·BEP(Break-even point)和F1(F-measure)	第25-26页
·本章小结	第26-27页
3 特征提取算法 TFIDF 的改进	第27-34页
·常用的特征抽取方法	第27-29页
·文档频率DF(Document Frequency:DF)	第27页
·信息增益方法IG(Imformation Gain:IG)	第27页
·互信息方法MI(Mutual Information:MI)	第27-28页
·x2 统计量(CHI)	第28-29页
·TFIDF	第29-33页
·特征项频率(Term Frequency: TF)	第29页
·反文档频率(Inverse Document Frequency:IDF)	第29页
·TFIDF 的不足	第29-31页
·TFIDF 的改进	第31-33页
·本章小结	第33-34页
4 遗传算法用于文本分类	第34-43页
·引言	第34页
·遗传算法简介	第34-38页
·基本原理	第34-35页
·编码问题	第35页
·交叉运算	第35-36页
·变异运算	第36-37页
·选择运算	第37-38页
·适应度函数	第38页
·遗传算法参数	第38-39页
·分类模型	第39-40页
·用遗传算法进行特征提取的文本分类系统	第40-41页
·系统模型	第40-41页
·系统描述	第41页
·本章小结	第41-43页
5 实验结果与分析	第43-54页
·引言	第43页
·实验介绍	第43-44页
·实验结果及其分析	第44-52页
·混淆矩阵	第44-47页
·总体查全率、查对率、F_1 值	第47-48页
·各个类的查全率、查对率、F_1 值	第48-50页
·各个类的分类情况图形显示	第50-52页
·本节小结	第52页
·本章小结	第52-54页
6 结论与展望	第54-55页
·本文的工作总结	第54页
·对未来工作的展望	第54-55页
致谢	第55-56页
参考文献	第56-59页
附录：作者在攻读硕士学位期间发表论文的目录	第59-60页
独创性声明	第60页
学位论文版权使用授权书	第60页