基于Hadoop云计算平台的文本聚类并行化研究

摘要	第4-5页
Abstract	第5-6页
第1章绪论	第9-14页
1.1 课题背景与意义	第9-10页
1.2 国内外研究现状	第10-11页
1.3 本文主要工作	第11-14页
1.3.1 主要研究内容及创新点	第11-12页
1.3.2 论文章节安排	第12-14页
第2章相关技术概述	第14-23页
2.1 Hadoop	第14-16页
2.1.1 HDFS分布式文件系统	第14-15页
2.1.2 MapReduce框架介绍	第15-16页
2.2 文本聚类技术	第16-20页
2.2.1 文本预处理	第17-18页
2.2.2 文本特征提取	第18页
2.2.3 文本向量化	第18-19页
2.2.4 文本相似度计算	第19-20页
2.3 文本聚类算法	第20页
2.4 聚类中的抽样技术	第20-21页
2.5 本章小结	第21-23页
第3章文本向量并行化	第23-31页
3.1 文本向量化的流程	第23-24页
3.2 文本向量化并行设计	第24-30页
3.3 文本向量化并行实现	第30页
3.4 本章总结	第30-31页
第4章改进k-means算法并行化研究	第31-45页
4.1 传统k-means算法	第31-33页
4.1.1 传统k-means算法思想	第31-32页
4.1.2 k-means算法分析	第32-33页
4.2 改进k-means并行算法	第33-42页
4.2.1 改进k-means算法并行设计	第33-35页
4.2.2 并行采样	第35-37页
4.2.3 合并数据对象并行化	第37-39页
4.2.4 聚类并行化	第39-40页
4.2.5 改进k-means算法并行实现	第40-42页
4.3 实验对比	第42-44页
4.3.1 迭代次数比较	第42-44页
4.3.2 初始采样速率比较	第44页
4.4 本章小结	第44-45页
第5章实验结果与分析	第45-54页
5.1 实验环境	第45-46页
5.2 HDP集群部署	第46-48页
5.3 实验评价标准	第48-49页
5.4 实验结果与分析	第49-53页
5.4.1 聚类效率实验	第49-51页
5.4.2 聚类质量实验	第51-52页
5.4.3 并行性能实验	第52-53页
5.5 本章小结	第53-54页
第6章结论	第54-55页
参考文献	第55-59页
在学研究成果	第59-60页
致谢	第60页