基于云平台的聚类算法并行化研究

摘要	第4-5页
abstract	第5页
第一章绪论	第8-11页
1.1 课题背景	第8-9页
1.1.1 大规模数据挖掘	第8页
1.1.2 聚类算法	第8页
1.1.3 云计算平台	第8-9页
1.2 研究目的和意义	第9页
1.3 论文研究内容	第9-10页
1.4 论文组织结构	第10-11页
第二章数据聚类相关技术	第11-21页
2.1 聚类分析概述	第11-15页
2.1.1 聚类分析的定义	第11-12页
2.1.2 聚类分析中的数据结构	第12-13页
2.1.3 聚类分析中的数据类型	第13页
2.1.4 聚类的相似性计算方法	第13-15页
2.2 聚类基本步骤	第15页
2.3 主要聚类算法	第15-18页
2.3.1 层次方法	第16页
2.3.2 划分方法	第16-17页
2.3.3 基于密度的方法	第17页
2.3.4 基于网格的方法	第17页
2.3.5 基于模型的方法	第17-18页
2.4 并行聚类相关技术	第18-20页
2.4.1 并行计算简介	第18页
2.4.2 并行策略	第18-19页
2.4.3 并行算法的性能评价	第19-20页
2.5 本章小结	第20-21页
第三章 Hadoop云计算平台	第21-31页
3.1 Hadoop简介	第21-22页
3.2 HDFS分布式文件系统	第22-27页
3.2.1 HDFS的特点	第22-23页
3.2.2 HDFS的体系结构	第23-25页
3.2.3 保障HDFS可靠性措施	第25-26页
3.2.4 HDFS缺点及改进	第26-27页
3.3 Mapreduce编程模型	第27-30页
3.3.1 MapReduce编程思想	第27-29页
3.3.2 MapReduce处理流程	第29-30页
3.4 本章小结	第30-31页
第四章基于MapReduce的Canopy-Kmeans算法并行优化	第31-43页
4.1 Kmeans算法简介	第31-34页
4.1.1 Kmeans算法思想	第31-32页
4.1.2 Kmeans算法流程	第32-33页
4.1.3 Kmeans算法复杂度与性能分析	第33-34页
4.2 Canopy- Kmeans算法简介	第34-36页
4.2.1 Canopy算法思想	第34-35页
4.2.2 Canopy算法流程	第35-36页
4.3 改进算法设计	第36-37页
4.3.1 初始聚类中心优化	第36页
4.3.2 Kmeans迭代过程优化	第36-37页
4.3.3 基于Hadoop平台的算法并行化	第37页
4.4 基于Hadoop平台的Canopy-Kmeans算法并行实现	第37-41页
4.4.1 Canopy中心点生成	第37-39页
4.4.2 输入数据标注	第39页
4.4.3 Kmeans迭代	第39-40页
4.4.4 聚类结果输出	第40-41页
4.5 实验及结果分析	第41-42页
4.5.1 优化算法性能测试	第41-42页
4.5.2 Kmeans并行优化算法算法可扩展性测试	第42页
4.6 本章小结	第42-43页
第五章基于MapReduce的DBSCAN算法并行优化	第43-53页
5.1 DBSCAN聚类算法介绍	第43-46页
5.1.1 DBSCAN算法基本概念	第43-44页
5.1.2 DBSCAN算法执行流程	第44-46页
5.2 改进算法设计	第46-48页
5.2.1 优化算法思想	第46-47页
5.2.2 优化算法描述	第47页
5.2.3 优化算法性能分析	第47-48页
5.3 基于MapReduce的算法并行实现	第48-50页
5.4 实验与结果分析	第50-52页
5.4.1 优化算法准确率测试	第50-51页
5.4.2 优化算法可扩展性测试	第51-52页
5.5 本章小结	第52-53页
第六章总结与展望	第53-55页
6.1 总结	第53页
6.2 展望	第53-55页
参考文献	第55-57页
附录1攻读硕士学位期间撰写的论文	第57-58页
致谢	第58页