摘要 | 第1-5页 |
ABSTRACT | 第5-9页 |
1 绪论 | 第9-14页 |
·研究背景及意义 | 第9-10页 |
·研究现状 | 第10-11页 |
·本文研究内容及解决问题的思路 | 第11-12页 |
·本文的章节安排 | 第12-14页 |
2 文本分类的概述 | 第14-25页 |
·文本分类过程 | 第14-15页 |
·文本表示 | 第15-16页 |
·特征提取算法 | 第16-19页 |
·文档频率DF(Document Frequency: DF) | 第16-17页 |
·信息增益方法IG (Information Gain: IG) | 第17页 |
·互信息方法MI(Mutual Information: MI) | 第17-18页 |
·期望交叉熵ECE(Expected Cross Entropy: ECE) | 第18页 |
·χ~2 统计量(CHI) | 第18-19页 |
·常用分类方法 | 第19-22页 |
·KNN 分类算法(k-Nearest Neighbor ) | 第20页 |
·SVM 分类算法(Support Vector Machine) | 第20-21页 |
·朴素贝叶斯分类算法(Native Bayes) | 第21-22页 |
·文本分类的评估方法 | 第22-24页 |
·本章小结 | 第24-25页 |
3 特征词权重算法改进 | 第25-35页 |
·经典特征词权重算法 | 第25-27页 |
·TFIDF 的不足 | 第27页 |
·基于信息增益的权重改进 | 第27-33页 |
·信息增益的定义 | 第27-28页 |
·使用信息增益改进权重公式 | 第28-33页 |
·本章小结 | 第33-35页 |
4 KNN 算法的改进 | 第35-45页 |
·KNN 算法的不足 | 第35-36页 |
·改进KNN 算法 | 第36-44页 |
·模糊集(Fuzzy Sets) | 第36-37页 |
·常用聚类算法 | 第37-40页 |
·使用隶属度改进KNN 算法 | 第40-44页 |
·本章小结 | 第44-45页 |
5 实验结果与分析 | 第45-54页 |
·实验目的介绍 | 第45页 |
·实验介绍 | 第45页 |
·实验结果与分析 | 第45-53页 |
·对比实验 | 第45-46页 |
·混淆矩阵 | 第46-48页 |
·总体查全率、查对率、F1 值 | 第48-49页 |
·各个类的查全率、查对率、F1 值 | 第49-50页 |
·各个类的分类情况图形显示 | 第50-53页 |
·本章小结 | 第53-54页 |
6 结论与展望 | 第54-55页 |
·本文的主要工作 | 第54页 |
·下一步工作的展望 | 第54-55页 |
致谢 | 第55-56页 |
参考文献 | 第56-58页 |
附录 | 第58-60页 |