基于MapReduce的并行采样K-Means算法的研究

致谢	第5-6页
摘要	第6-7页
Abstract	第7页
1 绪论	第10-15页
1.1 课题的研究背景	第10-11页
1.2 国内外研究现状	第11-12页
1.3 课题的研究内容	第12-13页
1.4 论文结构	第13-15页
2 相关基础理论	第15-29页
2.1 聚类算法	第15-17页
2.1.1 聚类的概念	第15页
2.1.2 聚类分析	第15-16页
2.1.3 K-Means算法	第16-17页
2.2 Hadoop相关理论	第17-22页
2.2.1 HDFS文件系统	第17-19页
2.2.2 MapReduce编程模型	第19-22页
2.3 K选择排序算法	第22-24页
2.4 聚类中的采样算法	第24-28页
2.5 本章小结	第28-29页
3 基于MapReduce的K-Means改进算法	第29-44页
3.1 经典K-Means算法的缺陷	第29-30页
3.2 基于MapReduce的K-Means算法	第30-32页
3.3 基于MapReduce的Canopy-Kmeans算法	第32-36页
3.4 K-Means算法的改进方案	第36-39页
3.5 改进算法的设计方案	第39-43页
3.5.1 基于MapReduce的K选择排序并行采样	第39-40页
3.5.2 算法描述	第40-43页
3.6 本章小结	第43-44页
4 实验结果与分析	第44-54页
4.1 实验环境	第44页
4.2 单机处理比较实验	第44-47页
4.2.1 单机处理数据负荷比较	第44-45页
4.2.2 收敛性比较	第45-46页
4.2.3 聚类精确性测试	第46-47页
4.3 集群实验	第47-53页
4.3.1 数据采样测试	第47页
4.3.2 集群性能测试	第47-49页
4.3.3 Hadoop集群优化	第49-51页
4.3.4 算法性能比较	第51-53页
4.4 本章小结	第53-54页
结论	第54-55页
参考文献	第55-58页
作者简历	第58-59页
学位论文数据集	第59-60页