摘要 | 第6-7页 |
abstract | 第7页 |
第1章 绪论 | 第10-16页 |
1.1 研究背景及意义 | 第10-13页 |
1.2 国内外研究现状 | 第13-14页 |
1.3 研究工作与论文结构 | 第14-16页 |
1.3.1 本文的研究工作 | 第14页 |
1.3.2 本文章节安排 | 第14-16页 |
第2章 相关技术 | 第16-35页 |
2.1 Hadoop分布式计算平台 | 第16-22页 |
2.1.1 MapReduce并行编程模型详述 | 第16-19页 |
2.1.2 HDFS分布式文件系统概述 | 第19-22页 |
2.2 Spark分布式计算平台 | 第22-31页 |
2.2.1 Spark体系结构 | 第23-25页 |
2.2.2 Spark基本设计思想 | 第25-31页 |
2.3 相关聚类算法 | 第31-34页 |
2.4 本章小结 | 第34-35页 |
第3章 Msk-means算法 | 第35-48页 |
3.1 k-means算法思想和优缺点 | 第35-41页 |
3.2 当前学者对k-means算法的改进探究 | 第41-43页 |
3.3 Msk-means算法对于收敛速度的改进 | 第43-44页 |
3.4 Msk-means算法对于初始点选取的改进 | 第44-46页 |
3.5 Msk-means算法的步骤 | 第46-47页 |
3.6 本章小结 | 第47-48页 |
第4章 相关算法在Spark平台上的实现 | 第48-54页 |
4.1 MLlib介绍 | 第48-49页 |
4.2 k-means聚类算法在Spark平台上的实现 | 第49-52页 |
4.3 Msk-means算法在Spark平台上的实现 | 第52-53页 |
4.4 本章小结 | 第53-54页 |
第5章 Spark平台的搭建和实验结果分析 | 第54-62页 |
5.1 Spark平台的搭建 | 第54-58页 |
5.1.1 硬件环境的配置 | 第54页 |
5.1.2 配置环境变量 | 第54-55页 |
5.1.3 修改spark配置 | 第55页 |
5.1.4 编辑spark-env.sh | 第55-56页 |
5.1.5 编辑slaves | 第56-58页 |
5.2 实验方案设计 | 第58页 |
5.3 实验过程和结果分析 | 第58-61页 |
5.3.1 k-means算法和Msk-means算法的稳定性 | 第58-60页 |
5.3.2 Spark集群下k-means算法和Msk-means算法的可扩展性 | 第60-61页 |
5.4 本章小结 | 第61-62页 |
结论 | 第62-63页 |
参考文献 | 第63-67页 |
攻读硕士学位期间发表的论文和获得的科研成果 | 第67-68页 |
致谢 | 第68-69页 |