基于云平台的文本特征选择算法研究

致谢	第5-6页
摘要	第6-7页
abstract	第7页
1 绪论	第14-19页
1.1 研究背景与意义	第14-15页
1.2 国内外研究现状	第15-16页
1.2.1 文本特征选择算法研究现状	第15-16页
1.2.2 Hadoop云平台研究现状	第16页
1.3 本文主要研究内容	第16-17页
1.4 各章研究内容与论文结构	第17-19页
2 文本分类和Hadoop分布式云平台技术	第19-24页
2.1 文本分类过程	第19页
2.2 文本预处理	第19-20页
2.2.1 中文分词	第19页
2.2.2 去停用词	第19-20页
2.3 文本表示	第20-21页
2.3.1 布尔模型	第20页
2.3.2 概率模型	第20-21页
2.3.3 向量空间模型	第21页
2.4 常用特征提取算法	第21-23页
2.4.1 文档频率(DF)	第21页
2.4.2 信息增益(IG)	第21-22页
2.4.3 互信息(MI)	第22页
2.4.4 卡方统计(CHI)	第22-23页
2.5 常见分类算法	第23-24页
2.5.1 朴素贝叶斯方法	第23页
2.5.2 K最近邻方法	第23-24页
3 Hadoop分布式云平台	第24-28页
3.1 Hadoop云平台架构	第24页
3.2 HDFS分布式文件系统	第24-25页
3.2.1 HDFS简介	第24-25页
3.2.2 HDFS系统架构	第25页
3.3 Map Reduce并行编程	第25-27页
3.3.1 Map Reduce并行架构	第25-26页
3.3.2 Map Reduce并行编程接口	第26-27页
3.4 文章小结	第27-28页
4 基于CHI和MI的改进型组合特征选择算法CHMI	第28-36页
4.1 引言	第28页
4.2 经典CHI和MI方法的不足	第28-29页
4.3 改进的基于CHI和MI的组合特征提取方法CHMI	第29-31页
4.4 实验与结果分析	第31-35页
4.4.1 测试方法	第31页
4.4.2 语料库说明	第31-32页
4.4.3 评价标准	第32页
4.4.4 实验结果与分析	第32-35页
4.5 本章小结	第35-36页
5 基于云平台的并行文本特征选择算法MRCHMI	第36-46页
5.1 引言	第36页
5.2 并行实现文本特征选择分析	第36页
5.3 基于Map Reduce的文本特征选择算法设计	第36-41页
5.4 实验与结果分析	第41-45页
5.4.1 实验环境	第41-42页
5.4.2 评价标准	第42页
5.4.3 实验结果与分析	第42-45页
5.5 本章小结	第45-46页
6 结论	第46-48页
6.1 研究总结	第46-47页
6.2 需要进一步开展的工作	第47-48页
参考文献	第48-53页
作者简历	第53页