基于Hadoop和Mahout的K-Means算法设计与实现

摘要	第5-6页
ABSTRACT	第6页
第1章绪论	第10-14页
1.1 选题背景及意义	第10-11页
1.2 国内外研究现状	第11-12页
1.3 论文的主要工作	第12-13页
1.4 论文的组织结构	第13-14页
第2章云计算、数据挖掘和Mahout的介绍	第14-25页
2.1 云计算	第14-15页
2.1.1 云计算的概念	第14页
2.1.2 云计算的服务	第14-15页
2.2 Hadoop框架	第15-19页
2.2.1 Hadoop的历史	第15页
2.2.2 Hadoop的架构	第15-16页
2.2.3 HDFS分布式文件系统	第16-17页
2.2.4 MapReduce编程模型	第17-19页
2.3 数据挖掘技术	第19-22页
2.3.1 数据挖掘技术的定义	第19-20页
2.3.2 数据挖掘的方法分类	第20-21页
2.3.3 数据挖掘的基本步骤	第21页
2.3.4 数据挖掘基本算法	第21-22页
2.4 Mahout	第22-24页
2.4.1 Mahout的介绍	第22-23页
2.4.2 Mahout实现的算法	第23-24页
2.5 本章小结	第24-25页
第3章聚类技术和算法介绍	第25-42页
3.1 聚类技术的定义与过程	第25-26页
3.2 聚类技术的分类	第26-27页
3.3 聚类分析中的数据结构	第27页
3.4 相似度的度量方法	第27-29页
3.5 K-Means算法	第29-33页
3.5.1 K-Means算法的过程	第29-32页
3.5.2 K-Means算法的性能分析	第32页
3.5.3 K-Means算法的优缺点	第32-33页
3.6 Canopy算法	第33-36页
3.6.1 Canopy算法的过程	第33-35页
3.6.2 Canopy算法的性能分析	第35-36页
3.6.3 Canopy算法的优缺点	第36页
3.7 改进的Canopy-kmeans算法	第36-41页
3.7.1 基于层次分析法的加权欧氏距离	第37-39页
3.7.2 聚类算法中的K值的确定	第39-40页
3.7.3 聚类中心的确定	第40页
3.7.4 数据集中的孤立点去除	第40-41页
3.8 本章小结	第41-42页
第4章改进的算法并行实现	第42-50页
4.1 改进的算法过程	第42-43页
4.2 基于AHP的加权欧式距离实现	第43页
4.3 Canopy算法的并行实现	第43-46页
4.3.1 Canopy算法的Mapper阶段	第45页
4.3.2 Canopy算法的Reduce阶段	第45-46页
4.4 K-Mesns算法的并行实现	第46-48页
4.4.1 K-Means算法Map阶段	第47页
4.4.2 K-Means算法Combine阶段	第47-48页
4.4.3 K-Means算法Reduce阶段	第48页
4.5 改进后的算法复杂度分析	第48-49页
4.6 本章小结	第49-50页
第5章实验与分析	第50-58页
5.1 实验的平台搭建	第50-52页
5.1.1 实验环境	第50-51页
5.1.2 Hadoop配置	第51-52页
5.1.3 Mahout的安装和配置	第52页
5.2 实验数据介绍	第52-53页
5.3 测试结果与分析	第53-57页
5.3.1 传统单机环境下算法比较	第53-56页
5.3.2 集群环境下算法比较	第56-57页
5.4 本章小结	第57-58页
第6章总结与展望	第58-60页
6.1 论文工作总结	第58页
6.2 下一阶段的工作	第58-60页
参考文献	第60-64页
致谢	第64页