基于Hadoop的文本特征选择算法的研究

中文摘要	第3-5页
Abstract	第5-6页
第一章绪论	第10-14页
1.1 研究背景和意义	第10-11页
1.2 研究现状	第11-12页
1.2.1 文本分类研究现状	第11-12页
1.2.2 Hadoop研究现状	第12页
1.3 主要内容和组织结构	第12-14页
第二章文本分类	第14-19页
2.1 文本分类概述	第14-15页
2.1.1 文本分类	第14页
2.1.2 文本分类的一般过程	第14-15页
2.2 文本分类关键技术	第15-16页
2.2.1 分词和去停用词	第15页
2.2.2 文本表示	第15-16页
2.2.3 文本分类算法	第16页
2.3 文本分类性能评价	第16-18页
2.3.1 标准数据集	第17页
2.3.2 分类结果评估标准	第17-18页
2.4 本章小结	第18-19页
第三章 Hadoop分布式平台	第19-25页
3.1 Hadoop平台发展历史	第19-20页
3.1.1 Hadoop版本演化	第19页
3.1.2 Hadoop生态系统	第19-20页
3.2 HDFS分布式文件系统	第20-21页
3.2.1 HDFS简介	第20页
3.2.2 HDFS架构	第20-21页
3.3 MapReduce并行计算框架	第21-24页
3.3.1 MapReduce架构	第21-22页
3.3.2 MapReduce作业生命周期	第22-24页
3.4 常见算法的MapReduce化	第24页
3.5 本章小结	第24-25页
第四章文本特征选择方法改进	第25-35页
4.1 特征降维方法介绍	第25-28页
4.1.1 文档频率	第25页
4.1.2 互信息	第25-26页
4.1.3 卡方统计	第26-27页
4.1.4 信息增益	第27页
4.1.5 期望交叉熵	第27-28页
4.2 特征选择算法性能分析	第28-29页
4.3 一种新颖的特征选择方法CCD	第29-30页
4.4 单机环境下的实验设计	第30-34页
4.4.1 实验一	第30-32页
4.4.2 实验二	第32-34页
4.4.3 实验对比分析	第34页
4.5 本章小结	第34-35页
第五章基于hadoop实现改进的文本分类过程	第35-50页
5.1 并行实现文本分类分析	第35-36页
5.2 自定义文本输入格式	第36-38页
5.2.1 InputFormat类解析	第36-37页
5.2.2 自定义文本输入格式	第37-38页
5.3 并行化实现文本分词	第38-41页
5.3.1 Lucene的中文分词介绍和对比	第38-40页
5.3.2 并行化实现文本分词	第40-41页
5.4 并行化实现TFIDF	第41-43页
5.5 并行化实现特征选择方法CCD	第43-46页
5.6 并行化实现向量空间模型构建	第46-47页
5.7 并行化实现KNN分类算法	第47-49页
5.8 本章小结	第49-50页
第六章实验设计与分析	第50-53页
6.1 环境搭建以及数据准备	第50-51页
6.1.1 实验环境	第50页
6.1.2 Hadoop集群环境搭建	第50-51页
6.1.3 eclipse中配置hadoop插件	第51页
6.2 实验结果与分析	第51-53页
第七章总结与展望	第53-55页
7.1 全文总结	第53页
7.2 研究展望	第53-55页
参考文献	第55-57页
在学期间的研究成果	第57-58页
致谢	第58页