致谢 | 第4-5页 |
摘要 | 第5-6页 |
Abstract | 第6页 |
1 绪论 | 第9-14页 |
1.1 课题的研究背景 | 第9页 |
1.2 国内外研究现状 | 第9-12页 |
1.3 课题的研究内容 | 第12-13页 |
1.4 论文结构 | 第13-14页 |
2 本文相关理论知识介绍 | 第14-33页 |
2.1 聚类算法 | 第14-16页 |
2.1.1 聚类的概念 | 第14页 |
2.1.2 聚类分析的分类 | 第14-15页 |
2.1.3 K-Means算法简介 | 第15-16页 |
2.2 Hadoop相关理论 | 第16-25页 |
2.2.1 HDFS文件系统 | 第16-21页 |
2.2.2 MapReduce编程模型 | 第21-25页 |
2.3 蓄水池算法和聚类分析中的抽样算法介绍 | 第25-32页 |
2.3.1 蓄水池算法 | 第25-27页 |
2.3.2 聚类分析中的抽样算法 | 第27-32页 |
2.4 本章小结 | 第32-33页 |
3 基于MapReduce改进的K-Means算法 | 第33-48页 |
3.1 传统K-Means算法的不足 | 第33-34页 |
3.2 基于MapReduce的K-Means算法 | 第34-38页 |
3.3 针对K-Means算法的改进方案 | 第38-40页 |
3.4 改进的K-Means算法设计方案 | 第40-47页 |
3.4.1 基于蓄水池算法的随机采样 | 第40-42页 |
3.4.2 算法描述 | 第42-47页 |
3.5 本章小结 | 第47-48页 |
4 基于MapReduce的随机抽样K-Means算法的实验结果与分析 | 第48-56页 |
4.1 实验环境 | 第48-49页 |
4.2 单机实验结果及分析 | 第49-52页 |
4.2.1 单机数据负载实验 | 第49-50页 |
4.2.2 聚类效果测试 | 第50-52页 |
4.3 集群测试 | 第52-55页 |
4.3.1 海量数据聚类效果测试 | 第52-53页 |
4.3.2 运行效率对比实验 | 第53-54页 |
4.3.3 加速比及扩展性分析 | 第54-55页 |
4.4 本章小结 | 第55-56页 |
结论 | 第56-58页 |
参考文献 | 第58-62页 |
作者简历 | 第62-64页 |
学位论文数据集 | 第64页 |