基于HADOOP云计算平台的聚类算法研究

中文摘要	第5-6页
英文摘要	第6-7页
英文单词注释	第13-14页
第一章绪论	第14-19页
1.1 研究背景及意义	第14-15页
1.2 研究现状	第15-17页
1.2.1 产业界云计算研究现状	第15-16页
1.2.2 基于MapReduce的数据挖掘研究现状	第16-17页
1.3 本文主要工作和组织结构	第17-19页
1.3.1 主要工作	第17页
1.3.2 组织结构	第17-19页
第二章 HADOOP技术架构研究	第19-32页
2.1 Hadoop技术背景	第19-22页
2.1.1 Google分布式文件系统GFS	第19-21页
2.1.2 Google MapReduce基本思想	第21-22页
2.2 HDFS分布式文件系统	第22-26页
2.2.1 HDFS系统架构	第23-24页
2.2.2 保障HDFS可靠性的措施	第24-25页
2.2.3 提升性能的措施	第25-26页
2.3 Hadoop MapReduce框架	第26-31页
2.3.1 Hadoop编程模型	第27-28页
2.3.2 Hadoop执行流程与任务调度机制	第28-30页
2.3.3 Hadoop MapReduce容错机制	第30-31页
2.4 本章小结	第31-32页
第三章非并行的聚类算法研究	第32-43页
3.1 聚类算法介绍	第32-36页
3.1.1 聚类的目的	第32-33页
3.1.2 经典聚类算法	第33-34页
3.1.3 聚类效果评价标准	第34-36页
3.2 非并行的K-Means聚类算法	第36-39页
3.2.1 距离计算方法	第36-37页
3.2.2 算法流程	第37-39页
3.3 改进的串行K-means算法	第39-42页
3.4 本章小结	第42-43页
第四章基于Hadoop的聚类算法研究	第43-54页
4.1 并行技术简介	第43-45页
4.1.1 并行计算	第43页
4.1.2 并行策略	第43-44页
4.1.3 并行算法评价标准	第44-45页
4.2 基于hadoop技术并行的Kmeans算法	第45-49页
4.2.1 Map函数与Reduce函数的设计	第46-48页
4.2.2 算法复杂度分析	第48-49页
4.3 基于hadoop技术并行的Canopy-Kmeans算法	第49-52页
4.3.1 算法基本思想	第49-50页
4.3.2 算法流程	第50-52页
4.3.3 算法复杂性分析	第52页
4.4 本章小结	第52-54页
第五章实验与分析	第54-68页
5.1 实验平台的搭建	第54-60页
5.1.1 硬件环境描述	第55页
5.1.2 软件环境描述	第55页
5.1.3 Hadoop平台的安装部署	第55-60页
5.2 hadoop性能实验与分析	第60-62页
5.2.1 wordcount基准程序测试	第60-61页
5.2.2 容错能力测试	第61-62页
5.3 并行K-means算法实验与分析	第62-67页
5.3.1 并行的K-means实验分析	第62-65页
5.3.2 可扩展性分析	第65-66页
5.3.3 canopy-kmeans实验分析	第66-67页
5.4 本章小结	第67-68页
第六章总结与展望	第68-70页
6.1 全文总结	第68页
6.2 改进方向	第68-70页
致谢	第70-71页
参考文献	第71-73页
攻读硕士研究生期间主要成果	第73-75页