基于Spark的K-medoids聚类算法的研究

摘要	第5-6页
Abstract	第6页
1 绪论	第9-15页
1.1 研究背景和意义	第9-11页
1.2 国内外研究现状	第11-13页
1.3 论文的主要研究内容	第13-14页
1.4 论文的组织结构	第14-15页
2 相关技术介绍	第15-27页
2.1 数据挖掘	第15-16页
2.1.1 数据挖掘的概念	第15-16页
2.1.2 数据挖掘的过程	第16页
2.2 聚类算法概述	第16-20页
2.2.1 聚类算法概念	第16-18页
2.2.2 样本相似性度量	第18-19页
2.2.3 聚类效果的评价	第19页
2.2.4 传统的聚类算法	第19-20页
2.3 相关的技术	第20-26页
2.3.1 Hadoop简介	第20-21页
2.3.2 Spark简介	第21-23页
2.3.3 弹性分布数据集	第23-25页
2.3.4 并行操作和共享变量	第25-26页
2.4 本章小结	第26-27页
3 分布式环境下K-medoids改进算法的并行化设计与实现	第27-34页
3.1 Canopy算法思想详述	第27-28页
3.1.1 算法概述	第27-28页
3.1.2 算法实现步骤	第28页
3.2 K-medoids算法思想详述	第28-30页
3.2.1 算法概述	第28-29页
3.2.2 算法实现的描述	第29页
3.2.3 算法的优缺点	第29-30页
3.3 基于Hadoop的Canopy-Kmdeoids算法的并行化设计与实现	第30-32页
3.4 基于Spark的Canopy-Kmdeoids算法的并行化设计与实现	第32-33页
3.5 本章小结	第33-34页
4 实验平台设计与结果分析	第34-40页
4.1 软硬件环境	第34页
4.2 实验平台的搭建	第34-35页
4.3 实验数据准备	第35-36页
4.4 实验过程及结果分析	第36-39页
4.5 本章小结	第39-40页
5 总结与展望	第40-42页
5.1 总结	第40页
5.2 展望	第40-42页
参考文献	第42-46页
攻读硕士学位期间发表学术论文情况	第46-47页
致谢	第47页