| 摘要 | 第1-5页 |
| ABSTRACT | 第5-9页 |
| 1 绪论 | 第9-14页 |
| ·研究背景及意义 | 第9-10页 |
| ·研究现状 | 第10-11页 |
| ·本文研究内容及解决问题的思路 | 第11-12页 |
| ·本文的章节安排 | 第12-14页 |
| 2 文本分类的概述 | 第14-25页 |
| ·文本分类过程 | 第14-15页 |
| ·文本表示 | 第15-16页 |
| ·特征提取算法 | 第16-19页 |
| ·文档频率DF(Document Frequency: DF) | 第16-17页 |
| ·信息增益方法IG (Information Gain: IG) | 第17页 |
| ·互信息方法MI(Mutual Information: MI) | 第17-18页 |
| ·期望交叉熵ECE(Expected Cross Entropy: ECE) | 第18页 |
| ·χ~2 统计量(CHI) | 第18-19页 |
| ·常用分类方法 | 第19-22页 |
| ·KNN 分类算法(k-Nearest Neighbor ) | 第20页 |
| ·SVM 分类算法(Support Vector Machine) | 第20-21页 |
| ·朴素贝叶斯分类算法(Native Bayes) | 第21-22页 |
| ·文本分类的评估方法 | 第22-24页 |
| ·本章小结 | 第24-25页 |
| 3 特征词权重算法改进 | 第25-35页 |
| ·经典特征词权重算法 | 第25-27页 |
| ·TFIDF 的不足 | 第27页 |
| ·基于信息增益的权重改进 | 第27-33页 |
| ·信息增益的定义 | 第27-28页 |
| ·使用信息增益改进权重公式 | 第28-33页 |
| ·本章小结 | 第33-35页 |
| 4 KNN 算法的改进 | 第35-45页 |
| ·KNN 算法的不足 | 第35-36页 |
| ·改进KNN 算法 | 第36-44页 |
| ·模糊集(Fuzzy Sets) | 第36-37页 |
| ·常用聚类算法 | 第37-40页 |
| ·使用隶属度改进KNN 算法 | 第40-44页 |
| ·本章小结 | 第44-45页 |
| 5 实验结果与分析 | 第45-54页 |
| ·实验目的介绍 | 第45页 |
| ·实验介绍 | 第45页 |
| ·实验结果与分析 | 第45-53页 |
| ·对比实验 | 第45-46页 |
| ·混淆矩阵 | 第46-48页 |
| ·总体查全率、查对率、F1 值 | 第48-49页 |
| ·各个类的查全率、查对率、F1 值 | 第49-50页 |
| ·各个类的分类情况图形显示 | 第50-53页 |
| ·本章小结 | 第53-54页 |
| 6 结论与展望 | 第54-55页 |
| ·本文的主要工作 | 第54页 |
| ·下一步工作的展望 | 第54-55页 |
| 致谢 | 第55-56页 |
| 参考文献 | 第56-58页 |
| 附录 | 第58-60页 |