基于Spark平台的大数据聚类算法研究及其应用

摘要	第4-5页
Abstract	第5-6页
第一章绪论	第9-14页
1.1 研究背景与课题来源	第9-11页
1.2 国内外相关研究	第11-12页
1.3 论文主要研究内容	第12页
1.4 论文组织结构	第12-14页
第二章相关技术基本理论介绍	第14-21页
2.1 Spark分布式平台	第14-16页
2.1.1 Spark简介	第14-15页
2.1.2 Spark体系架构	第15-16页
2.2 HDFS存储和YARN资源管理器	第16-18页
2.2.1 HDFS存储	第16-17页
2.2.2 YARN资源管理器	第17-18页
2.3 聚类算法	第18-20页
2.3.1 划分聚类算法	第18-19页
2.3.2 层次聚类算法	第19页
2.3.3 密度聚类算法	第19-20页
2.3.4 网格聚类算法	第20页
2.4 本章小结	第20-21页
第三章聚类算法的研究与优化	第21-35页
3.1 聚类算法中的距离	第21-22页
3.1.1 欧式距离	第21页
3.1.2 切比雪夫距离	第21-22页
3.2 聚类算法	第22-29页
3.2.1 K-means聚类算法	第22-25页
3.2.2 BIRCH聚类算法	第25-29页
3.3 聚类算法的优化	第29-32页
3.3.1 数据汇聚预处理	第29-31页
3.3.2 数据排序处理	第31-32页
3.3.3 优化算法介绍	第32页
3.4 聚类算法性能对比	第32-34页
3.5 本章小结	第34-35页
第四章聚类算法并行化研究	第35-47页
4.1 并行计算与集群环境	第35-36页
4.1.1 并行计算概要	第35页
4.1.2 并行编程模型	第35-36页
4.2 算法的并行化实现	第36-42页
4.2.1 数据预处理并行化	第37-38页
4.2.2 K-means 算法并行化	第38-40页
4.2.3 BIRCH算法并行化	第40-42页
4.3 算法并行化的性能分析	第42-46页
4.3.1 并行算法的性能评价	第42-43页
4.3.2 并行算法的性能对比	第43-46页
4.4 本章小结	第46-47页
第五章基于Spark平台大数据聚类应用	第47-58页
5.1 实验环境搭建	第47-52页
5.1.1 Linux 系统网络配置	第47-48页
5.1.2 Hadoop 集群搭建	第48-51页
5.1.3 Spark 集群搭建	第51-52页
5.1.4 GcoMcsa安装部署	第52页
5.2 实验数据分析	第52-54页
5.2.1 数据结构分析与抽取	第52-53页
5.2.2 数据分析方案	第53-54页
5.3 实验结果展示	第54-57页
5.3.1 GPS数据密度展示	第54-56页
5.3.2 未来数据预测	第56-57页
5.4 本章小结	第57-58页
第六章总结与展望	第58-60页
参考文献	第60-62页
附录1 攻读硕士学位期间申请的专利	第62-63页
附录2 攻读硕士学位期间参见的科研项目	第63-64页
致谢	第64页