基于Spark平台的K-means算法并行化研究

摘要	第4-5页
abstract	第5-6页
第一章绪论	第9-14页
1.1 研究背景与意义	第9-10页
1.2 国内外研究现状	第10-12页
1.3 研究内容	第12页
1.4 论文结构	第12-14页
第二章相关理论与技术	第14-26页
2.1 传统K-means算法模型	第14-16页
2.2 Hadoop概述	第16-19页
2.2.1 分布式文件系统HDFS	第16-17页
2.2.2 分布式计算MapReduce	第17-19页
2.3 Spark编程模型	第19-23页
2.3.1 RDD的基本组成	第20页
2.3.2 依赖关系	第20-22页
2.3.3 分区模型	第22-23页
2.3.4 内存管理	第23页
2.4 Spark框架下K-means算法并行化	第23-25页
2.5 本章总结	第25-26页
第三章 Spark框架下基于空间分布的优化方法研究	第26-39页
3.1 Spark MLlib的三角不等式策略	第26-29页
3.1.1 三角不等式优化原理	第27-28页
3.1.2 三角不等式方法的局限	第28-29页
3.2 基于空间分布的优化方法	第29-32页
3.2.1 空间分布关系	第29-30页
3.2.2 空间分布关系的量化	第30-32页
3.3 基于空间分布的并行化策略	第32-33页
3.4 实验结果及分析	第33-38页
3.4.1 实验环境	第34页
3.4.2 效率分析	第34-36页
3.4.3 聚类效果分析	第36-37页
3.4.4 扩展性分析	第37页
3.4.5 加速比分析	第37-38页
3.5 本章总结	第38-39页
第四章 Spark框架下基于密度加权的优化方法研究	第39-50页
4.1 预聚类	第39-40页
4.2 密度加权定义和描述	第40-41页
4.2.1 网格单元	第40页
4.2.2 网格密度加权	第40-41页
4.2.3 加权样本计算	第41页
4.3 基于密度加权的并行化策略	第41-45页
4.3.1 Spark框架下基于密度加权的抽样	第41-43页
4.3.2 Spark框架下基于密度加权的聚类	第43-45页
4.4 实验结果及分析	第45-49页
4.4.1 实验环境	第46页
4.4.2 效率分析	第46-47页
4.4.3 聚类效果分析	第47页
4.4.4 扩展性分析	第47-48页
4.4.5 加速比分析	第48-49页
4.5 本章总结	第49-50页
第五章总结与展望	第50-52页
5.1 总结	第50-51页
5.2 展望	第51-52页
参考文献	第52-56页
论文和科研情况	第56-57页
致谢	第57页