基于Hadoop平台的聚类算法并行化研究

摘要	第4-6页
Abstract	第6-7页
第1章绪论	第11-16页
1.1 研究背景与意义	第11-12页
1.2 国内外研究现状	第12-14页
1.3 本文主要工作	第14页
1.4 本文组织结构	第14-16页
第2章 Hadoop技术架构研究	第16-26页
2.1 Hadoop简介	第16-17页
2.2 HDFS分布式文件系统	第17-21页
2.2.1 HDFS设计思想	第17-18页
2.2.2 HDFS体系结构	第18-19页
2.2.3 HDFS读写流程	第19-21页
2.3 YARN分布式资源调度平台	第21-23页
2.3.1 YARN架构	第21-22页
2.3.2 YARN工作流程	第22-23页
2.4 MapReduce并行编程模型	第23-25页
2.4.1 MapReduce简介	第23-24页
2.4.2 MapReduce处理阶段	第24-25页
2.5 本章小结	第25-26页
第3章传统聚类算法研究	第26-36页
3.1 聚类分析概述	第26-30页
3.1.1 聚类分析的定义	第26-27页
3.1.2 聚类分析中的数据结构	第27-28页
3.1.3 聚类的相似性度量	第28-29页
3.1.4 聚类分析方法	第29-30页
3.2 Kmeans算法	第30-32页
3.2.1 算法思想	第30-31页
3.2.2 算法流程	第31-32页
3.2.3 算法复杂度分析	第32页
3.3 Canopy-Kmeans算法	第32-35页
3.3.1 算法思想	第32-33页
3.3.2 算法流程	第33-34页
3.3.3 算法复杂度分析	第34-35页
3.4 本章小结	第35-36页
第4章基于Hadoop的聚类算法并行化研究	第36-51页
4.1 并行化的Kmeans算法优化策略	第36-37页
4.1.1 数据min-max标准化	第36页
4.1.2 HDFS块大小设置	第36-37页
4.2 基于Hadoop平台的Kmeans算法设计	第37-43页
4.2.1 优化的Kmeans算法并行化设计思想	第37-39页
4.2.2 Kmeans算法的MapReduce实现	第39-42页
4.2.3 算法复杂度分析	第42-43页
4.3 并行化的Canopy-Kmeans算法优化策略	第43-45页
4.3.1 canopy中心点选取优化	第43-44页
4.3.2 Kmeans迭代过程优化	第44页
4.3.3 删除数据集中的孤立点	第44-45页
4.4 基于Hadoop平台改进的Canopy-Kmeans算法设计	第45-50页
4.4.1 改进的Canopy-Kmeans算法并行化设计思想	第45-47页
4.4.2 改进的Canopy-Kmeans算法的MapReduce实现	第47-50页
4.4.3 算法复杂度分析	第50页
4.5 本章小结	第50-51页
第5章实验与分析	第51-58页
5.1 实验环境	第51-52页
5.1.1 主机规划	第51-52页
5.1.2 Hadoop集群规划	第52页
5.2 实验结果与分析	第52-57页
5.2.1 有效性实验	第53-54页
5.2.2 收敛性实验	第54-55页
5.2.3 可扩展性实验	第55-56页
5.2.4 加速比实验	第56-57页
5.3 本章小结	第57-58页
第6章总结与展望	第58-60页
6.1 总结	第58-59页
6.2 展望	第59-60页
参考文献	第60-63页
作者简介	第63-64页
致谢	第64页