面向海量文本的分类算法研究

摘要	第8-9页
ABSTRACT	第9页
第1章绪论	第10-16页
1.1 研究背景和意义	第10-11页
1.2 研究现状	第11-13页
1.2.1 文本分类研究现状	第11-12页
1.2.2 Hadoop研究现状	第12-13页
1.3 主要内容和组织结构	第13-16页
第2章文本分类详述	第16-24页
2.1 文本分类的基本过程	第16-17页
2.2 文本预处理	第17-19页
2.2.1 文本分词	第18-19页
2.2.2 去除停用词	第19页
2.3 文本分类关键技术	第19-22页
2.3.1 文本特征选取	第19-20页
2.3.2 文本数据的表示	第20-21页
2.3.3 文本分类算法	第21-22页
2.4 本章小结	第22-24页
第3章 TFIDF算法的特征词权重的研究与改进	第24-32页
3.1 特征词权重及TFIDF算法的概述	第24-25页
3.2 TFIDF算法研究现状	第25-26页
3.3 TFIDF算法及改进	第26-29页
3.3.1 TFIDF	第26-27页
3.3.2 现有的TFIDF算法中存在的缺点	第27-28页
3.3.3 TFIDF算法的改进	第28-29页
3.4 实验结果及分析	第29-30页
3.5 本章小结	第30-32页
第4章基于海量数据的文本分类算法的研究与改进	第32-40页
4.1 KNN文本分类算法的研究	第32-33页
4.1.1 现有文本分类算法的特点	第32页
4.1.2 现有的KNN文本分类算法	第32-33页
4.2 基于海量文本数据文本分类技术的改进	第33-36页
4.2.1 基于粗糙集的文本向量空间分布描述	第33-34页
4.2.2 基于关联分析的文本分类描述	第34-35页
4.2.3 改进的粗糙集关联分析算法	第35-36页
4.3 实验验证与结果分析	第36-38页
4.4 本章小结	第38-40页
第5章 Hadoop平台下的基于海量数据文本分类算法的实现	第40-54页
5.1 Hadoop简介	第40-46页
5.1.1 Hadoop生态系统	第40-43页
5.1.2 HDFS分布式文件系统	第43-44页
5.1.3 MapReduce并行计算框架	第44页
5.1.4 MapReduce编程模型简介	第44-46页
5.2 文本分类并行化分析	第46-47页
5.3 分布式预处理	第47-49页
5.3.1 预处理流程	第47-48页
5.3.2 预处理的MapReduce实现	第48-49页
5.4 并行化实现TFIDF	第49-50页
5.5 并行化实现向量空间模型构建	第50-51页
5.6 并行化实现KNN分类算法	第51-52页
5.7 本章小结	第52-54页
第6章实验环境与结果分析	第54-58页
6.1 环境搭建	第54-55页
6.1.1 实验环境	第54页
6.1.2 Hadoop集群环境搭建	第54-55页
6.2 实验结果与分析	第55-58页
第7章总结	第58-60页
参考文献	第60-66页
致谢	第66-68页
在学期间主要科研成果	第68-69页
附件	第69页