基于Hadoop的文本聚类并行化研究

摘要	第5-6页
ABSTRACT	第6页
第一章绪论	第9-13页
1.1 课题的研究背景及意义	第9-10页
1.2 国内外研究现状	第10-11页
1.3 主要的研究内容和工作	第11页
1.4 论文章节安排	第11-13页
第二章文本聚类及分布式计算技术概述	第13-29页
2.1 文本聚类相关技术	第13-20页
2.1.1 文本聚类的概念及流程	第13页
2.1.2 文本预处理关键技术	第13-17页
2.1.3 聚类相关技术	第17-20页
2.2 Hadoop技术架构	第20-27页
2.2.1 HDFS	第20-23页
2.2.2 MapReduce	第23-27页
2.3 本章小结	第27-29页
第三章文本预处理的并行化研究	第29-37页
3.1 文本预处理的流程	第29-30页
3.2 文本预处理并行化设计	第30-34页
3.3 文本预处理并行化实现	第34-36页
3.4 本章小结	第36-37页
第四章文本聚类算法的并行化研究	第37-52页
4.1 K-means算法的并行化	第37-41页
4.1.1 K-means算法的思想	第37-38页
4.1.2 K-means算法的并行设计	第38-40页
4.1.3 K-means算法的并行实现	第40-41页
4.2 Canopy-K-means算法的并行化	第41-45页
4.2.1 Canopy-K-means算法的思想	第41-42页
4.2.2 Canopy-K-means算法的并行设计	第42-43页
4.2.3 Canopy-K-means算法的并行实现	第43-45页
4.3 MMK-means算法的并行化	第45-51页
4.3.1 MMK-means算法的思想	第45页
4.3.2 MMK-means算法的并行设计	第45-48页
4.3.3 MMK-means算法的并行实现	第48-51页
4.4 本章小结	第51-52页
第五章实验与结果分析	第52-64页
5.1 实验环境	第52-54页
5.2 实验数据与评价指标	第54-55页
5.3 并行文本聚类效率测试	第55-57页
5.4 聚类算法性能对比	第57-62页
5.4.1 聚类效率对比	第58-59页
5.4.2 聚类质量对比	第59-61页
5.4.3 并行性能对比	第61-62页
5.5 与Spark平台下k-means并行算法的比较	第62-63页
5.6 本章小结	第63-64页
总结和展望	第64-66页
参考文献	第66-69页
攻读硕士学位期间取得的研究成果	第69-70页
致谢	第70-71页
附件	第71页