基于CHI和KNN的文本特征选择与分类算法的研究

摘要	第4-6页
Abstract	第6-7页
第1章绪论	第11-19页
1.1 课题的研究背景和意义	第11-12页
1.2 国内外研究现状	第12-16页
1.2.1 特征选择算法的研究现状	第13-14页
1.2.2 特征加权算法的研究现状	第14-15页
1.2.3 文本分类算法的研究现状	第15-16页
1.3 本文的研究内容和组织结构	第16-19页
1.3.1 本文的研究内容	第16-17页
1.3.2 本文的组织结构	第17-19页
第2章文本分类的关键技术概述	第19-29页
2.1 文本分类定义及过程	第19-20页
2.1.1 定义	第19页
2.1.2 文本分类过程	第19-20页
2.2 预处理	第20-21页
2.2.1 中文分词	第20-21页
2.2.2 停用词去除	第21页
2.3 特征选择算法	第21-24页
2.3.1 文档频率	第22页
2.3.2 信息增益	第22-23页
2.3.3 互信息	第23页
2.3.4 CHI统计	第23-24页
2.4 文本表示	第24页
2.4.1 布尔模型	第24页
2.4.2 向量空间模型	第24页
2.5 文本分类算法	第24-26页
2.5.1 K最近邻分类算法	第24-25页
2.5.2 贝叶斯分类算法	第25页
2.5.3 支持向量机分类算法	第25-26页
2.6 分类性能评价	第26-27页
2.7 本章小结	第27-29页
第3章基于CHI统计的自适应特征选择方法	第29-43页
3.1 CHI统计特征选择方法	第29-31页
3.1.1 CHI统计方法	第29-30页
3.1.2 CHI统计方法的优点和不足	第30-31页
3.2 基于CHI统计的自适应特征选择方法	第31-34页
3.2.1 词频因子	第31-32页
3.2.2 类间方差	第32-33页
3.2.3 自适应比例因子	第33-34页
3.3 算法流程	第34-36页
3.4 实验结果与分析	第36-42页
3.4.1 实验数据集	第36-37页
3.4.2 实验分析	第37-41页
3.4.3 实验总结	第41-42页
3.5 本章小结	第42-43页
第4章基于CHI统计和信息熵的改进型TFIDF方法	第43-57页
4.1 常用特征权重计算方法	第43-45页
4.1.1 布尔权重计算法	第43页
4.1.2 特征频率权重计算法	第43-44页
4.1.3 TFIDF权重计算法	第44-45页
4.2 TFIDF权重计算方法的优点和不足	第45-46页
4.3 基于CHI统计的TFIDF权重计算方法	第46-47页
4.4 基于CHI统计和信息熵的改进型TFIDF方法	第47-49页
4.4.1 信息熵	第47页
4.4.2 类内分布熵因子	第47-49页
4.5 实验结果与分析	第49-56页
4.5.1 实验分析	第49-55页
4.5.2 实验总结	第55-56页
4.6 本章小结	第56-57页
第5章基于K-Medoids和隶属度的改进型KNN分类方法	第57-71页
5.1 传统KNN文本分类方法	第57-58页
5.1.1 传统KNN分类方法	第57-58页
5.1.2 KNN方法的优点和不足	第58页
5.2 基于K-Medoids和隶属度的改进型KNN分类方法	第58-64页
5.2.1 K-Medoids聚类方法	第59-60页
5.2.2 基于改进K-Medoids算法的训练样本删除	第60-63页
5.2.3 引入隶属度	第63-64页
5.3 改进型KNN算法流程	第64-65页
5.4 实验结果与分析	第65-69页
5.4.1 实验数据集	第65页
5.4.2 实验分析	第65-69页
5.5 本章小结	第69-71页
结论	第71-73页
参考文献	第73-79页
攻读硕士期间发表的学术论文	第79-81页
致谢	第81页