基于信息增益的中文特征提取算法研究

摘要	第1-5页
ABSTRACT	第5-9页
1 绪论	第9-14页
·研究背景及意义	第9-10页
·研究现状	第10-11页
·本文研究内容及解决问题的思路	第11-12页
·本文的章节安排	第12-14页
2 文本分类的概述	第14-25页
·文本分类过程	第14-15页
·文本表示	第15-16页
·特征提取算法	第16-19页
·文档频率DF(Document Frequency: DF)	第16-17页
·信息增益方法IG (Information Gain: IG)	第17页
·互信息方法MI(Mutual Information: MI)	第17-18页
·期望交叉熵ECE(Expected Cross Entropy: ECE)	第18页
·χ~2 统计量(CHI)	第18-19页
·常用分类方法	第19-22页
·KNN 分类算法(k-Nearest Neighbor )	第20页
·SVM 分类算法(Support Vector Machine)	第20-21页
·朴素贝叶斯分类算法(Native Bayes)	第21-22页
·文本分类的评估方法	第22-24页
·本章小结	第24-25页
3 特征词权重算法改进	第25-35页
·经典特征词权重算法	第25-27页
·TFIDF 的不足	第27页
·基于信息增益的权重改进	第27-33页
·信息增益的定义	第27-28页
·使用信息增益改进权重公式	第28-33页
·本章小结	第33-35页
4 KNN 算法的改进	第35-45页
·KNN 算法的不足	第35-36页
·改进KNN 算法	第36-44页
·模糊集(Fuzzy Sets)	第36-37页
·常用聚类算法	第37-40页
·使用隶属度改进KNN 算法	第40-44页
·本章小结	第44-45页
5 实验结果与分析	第45-54页
·实验目的介绍	第45页
·实验介绍	第45页
·实验结果与分析	第45-53页
·对比实验	第45-46页
·混淆矩阵	第46-48页
·总体查全率、查对率、F1 值	第48-49页
·各个类的查全率、查对率、F1 值	第49-50页
·各个类的分类情况图形显示	第50-53页
·本章小结	第53-54页
6 结论与展望	第54-55页
·本文的主要工作	第54页
·下一步工作的展望	第54-55页
致谢	第55-56页
参考文献	第56-58页
附录	第58-60页