基于Hadoop的数据挖掘算法的研究

摘要	第5-6页
Abstract	第6页
第1章绪论	第9-12页
1.1 课题背景及研究的目的和意义	第9-10页
1.1.1 课题背景	第9页
1.1.2 课题意义	第9-10页
1.2 国内外研究现状	第10页
1.3 论文研究内容	第10页
1.4 论文组织结构	第10-12页
第2章 Hadoop核心框架研究	第12-22页
2.1 Hadoop概述	第12-13页
2.1.1 Hadoop优势	第12页
2.1.2 Hadoop子项目	第12-13页
2.2 MapReduce编程模型	第13-17页
2.2.1 MapReduce简介	第13-14页
2.2.2 MapReduce编程模型	第14页
2.2.3 MapReduce任务流程	第14-16页
2.2.4 MapReduce关键技术	第16-17页
2.3 分布式文件系统HDFS	第17-21页
2.3.1 HDFS特点和目标	第17-18页
2.3.2 HDFS体系结构	第18-19页
2.3.3 HDFS性能分析	第19-21页
2.4 本章小结	第21-22页
第3章聚类与K-means算法	第22-25页
3.1 聚类分析	第22页
3.2 K-means算法描述	第22-23页
3.3 K-means算法性能分析	第23-24页
3.4 K-means算法的并行化	第24页
3.5 本章小结	第24-25页
第4章 K-means算法的改进	第25-33页
4.1 数据抽样	第25-26页
4.2 寻找最佳初始聚类中心	第26-28页
4.2.1 求解凸包	第26-27页
4.2.2 求解对踵点	第27-28页
4.3 聚类中心临近点的确定	第28页
4.4 求解剩余聚类中心	第28-30页
4.5 聚类个数k的确定	第30-31页
4.6 改进算法整体描述	第31-32页
4.7 本章小结	第32-33页
第5章改进算法的并行化实现	第33-41页
5.1 数据预处理	第33-35页
5.2 数据抽样的并行实现	第35页
5.3 剩余聚类中心算法的并行实现	第35-37页
5.4 K-means算法的并行实现	第37-40页
5.5 本章小结	第40-41页
第6章改进算法的实验与分析	第41-47页
6.1 实验平台	第41-43页
6.1.1 硬件环境	第41页
6.1.2 软件环境	第41页
6.1.3 搭建Hadoop集群	第41-43页
6.2 实验过程	第43-46页
6.2.1 数据预处理	第43页
6.2.2 实验结果与分析	第43-46页
6.3 本章小结	第46-47页
第7章总结与展望	第47-49页
7.1 论文的总结	第47页
7.2 未来展望	第47-49页
参考文献	第49-52页
致谢	第52页