基于Hadoop平台的机器学习聚类算法研究

摘要	第5-7页
ABSTRACT	第7-8页
符号对照表	第11-12页
缩略语对照表	第12-16页
第一章绪论	第16-22页
1.1 研究背景及意义	第16-18页
1.2 国内外研究现状	第18-19页
1.3 研究的主要内容	第19-20页
1.4 论文的组织架构	第20-22页
第二章聚类算法研究	第22-28页
2.1 聚类分析概述	第22-23页
2.2 聚类基本步骤	第23-24页
2.3 聚类算法分类	第24-26页
2.4 相似性度量	第26-27页
2.5 聚类算法的扩展性分析	第27页
2.6 本章小结	第27-28页
第三章 Hadoop和Spark分布式平台介绍	第28-40页
3.1 引言	第28页
3.2 分布式平台Hadoop	第28-32页
3.2.1 分布式文件系统HDFS	第29-30页
3.2.2 分布式编程模型Map Reduce	第30-32页
3.3 快速分布式引擎Spark	第32-37页
3.3.1 Spark生态系统	第33-34页
3.3.2 Spark的RDD抽象	第34-36页
3.3.3 Spark编程模型	第36页
3.3.4 Spark相比Map Reduce的优势分析	第36-37页
3.4 Hadoop和Spark平台配置信息	第37-38页
3.5 本章小结	第38-40页
第四章可扩展的并行K-means算法研究	第40-54页
4.1 引言	第40页
4.2 K-means算法原理	第40-41页
4.3 基于Map Reduce的并行K-means算法	第41-44页
4.3.1 Map函数的设计	第42页
4.3.2 Combine函数的设计	第42-43页
4.3.3 Reduce函数的设计	第43-44页
4.4 基于Spark的并行K-means算法	第44-46页
4.5 实验结果及分析	第46-52页
4.5.1 数据集描述	第46页
4.5.2 运行时间比较	第46-49页
4.5.3 聚类质量比较	第49-50页
4.5.4 并行性能分析	第50-52页
4.6 本章小结	第52-54页
第五章可扩展的并行Fuzzy C-means算法研究	第54-68页
5.1 引言	第54页
5.2 Fuzzy C-means算法原理	第54-56页
5.3 基于Map Reduce的并行Fuzzy C-means算法	第56-58页
5.3.1 Map函数的设计	第57页
5.3.2 Combine函数的设计	第57-58页
5.3.3 Reduce函数的设计	第58页
5.3.4 Iterations函数的设计	第58页
5.3.5 Classification函数的设计	第58页
5.4 基于Spark的并行Fuzzy C-means算法	第58-61页
5.4.1 Map函数设计	第60-61页
5.4.2 Reduce By Key函数设计	第61页
5.5 实验结果及分析	第61-67页
5.5.1 实验参数	第61-62页
5.5.2 运行时间比较	第62-64页
5.5.3 聚类质量比较	第64-65页
5.5.4 并行性能分析	第65-67页
5.6 本章小结	第67-68页
第六章总结及展望	第68-70页
6.1 工作总结	第68-69页
6.2 未来展望	第69-70页
参考文献	第70-74页
致谢	第74-76页
作者简介	第76-77页