基于Spark的大数据并行聚类算法研究与改进

摘要	第2-3页
Abstract	第3页
第一章绪论	第6-12页
1.1 研究背景及意义	第6-7页
1.2 国内外研究现状分析	第7-9页
1.3 论文主要工作	第9-10页
1.4 论文内容安排	第10-12页
第二章相关技术研究	第12-23页
2.1 云计算框架Spark	第12-17页
2.1.1 Spark体系架构	第12-13页
2.1.2 SparkCore	第13-14页
2.1.3 Spark程序执行框架	第14-15页
2.1.4 存储系统HDFS	第15-16页
2.1.5 资源管理平台Yarn	第16-17页
2.2 聚类分析	第17-22页
2.2.1 聚类分析概述	第17-19页
2.2.2 聚类分析的数据结构	第19页
2.2.3 聚类分析的相似性度量	第19-20页
2.2.4 聚类目标函数	第20-21页
2.2.5 聚类算法分类	第21-22页
2.3 本章小结	第22-23页
第三章基于Spark的Canopy-Kmeans并行算法研究与改进	第23-37页
3.1 Canopy-Kmeans算法	第23-26页
3.2 基于密度峰值的改进Canopy-Kmeans算法	第26-29页
3.2.1 局部密度	第26-27页
3.2.2 最大最小准则与深度值	第27-28页
3.2.3 算法改进	第28-29页
3.3 改进算法的并行化设计	第29-32页
3.4 基于Spark的改进算法实现	第32-36页
3.5 本章小结	第36-37页
第四章基于Spark的CFSFDP并行算法研究与改进	第37-50页
4.1 CFSFDP算法	第37-40页
4.2 一种自动选取中心点的CFSFDP改进算法	第40-44页
4.3 改进算法的并行化设计	第44-46页
4.4 基于Spark的改进算法实现	第46-49页
4.5 本章小结	第49-50页
第五章实验设计及分析	第50-61页
5.1 Spark集群部署	第50-52页
5.1.1 实验环境配置	第50页
5.1.2 Spark集群规划	第50页
5.1.3 SparkonYarn环境搭建	第50-52页
5.2 改进Canopy-Kmeans并行算法的实验过程及结果分析	第52-56页
5.2.1 实验数据	第52-53页
5.2.2 聚类效果分析	第53-55页
5.2.3 改进算法的并行性能测试	第55-56页
5.3 自动选取中心点的CFSFDP并行算法实验过程及结果分析	第56-59页
5.3.1 实验数据	第56页
5.3.2 聚类效果分析	第56-59页
5.3.3 自动选取中心点的CFSFDP算法并行性能测试	第59页
5.4 本章小结	第59-61页
第六章总结与展望	第61-63页
6.1 总结	第61页
6.2 展望	第61-63页
致谢	第63-64页
参考文献	第64-68页
附录	第68-69页