基于Hadoop的数据挖掘算法的研究
摘要 | 第5-6页 |
Abstract | 第6页 |
第1章 绪论 | 第9-12页 |
1.1 课题背景及研究的目的和意义 | 第9-10页 |
1.1.1 课题背景 | 第9页 |
1.1.2 课题意义 | 第9-10页 |
1.2 国内外研究现状 | 第10页 |
1.3 论文研究内容 | 第10页 |
1.4 论文组织结构 | 第10-12页 |
第2章 Hadoop核心框架研究 | 第12-22页 |
2.1 Hadoop概述 | 第12-13页 |
2.1.1 Hadoop优势 | 第12页 |
2.1.2 Hadoop子项目 | 第12-13页 |
2.2 MapReduce编程模型 | 第13-17页 |
2.2.1 MapReduce简介 | 第13-14页 |
2.2.2 MapReduce编程模型 | 第14页 |
2.2.3 MapReduce任务流程 | 第14-16页 |
2.2.4 MapReduce关键技术 | 第16-17页 |
2.3 分布式文件系统HDFS | 第17-21页 |
2.3.1 HDFS特点和目标 | 第17-18页 |
2.3.2 HDFS体系结构 | 第18-19页 |
2.3.3 HDFS性能分析 | 第19-21页 |
2.4 本章小结 | 第21-22页 |
第3章 聚类与K-means算法 | 第22-25页 |
3.1 聚类分析 | 第22页 |
3.2 K-means算法描述 | 第22-23页 |
3.3 K-means算法性能分析 | 第23-24页 |
3.4 K-means算法的并行化 | 第24页 |
3.5 本章小结 | 第24-25页 |
第4章 K-means算法的改进 | 第25-33页 |
4.1 数据抽样 | 第25-26页 |
4.2 寻找最佳初始聚类中心 | 第26-28页 |
4.2.1 求解凸包 | 第26-27页 |
4.2.2 求解对踵点 | 第27-28页 |
4.3 聚类中心临近点的确定 | 第28页 |
4.4 求解剩余聚类中心 | 第28-30页 |
4.5 聚类个数k的确定 | 第30-31页 |
4.6 改进算法整体描述 | 第31-32页 |
4.7 本章小结 | 第32-33页 |
第5章 改进算法的并行化实现 | 第33-41页 |
5.1 数据预处理 | 第33-35页 |
5.2 数据抽样的并行实现 | 第35页 |
5.3 剩余聚类中心算法的并行实现 | 第35-37页 |
5.4 K-means算法的并行实现 | 第37-40页 |
5.5 本章小结 | 第40-41页 |
第6章 改进算法的实验与分析 | 第41-47页 |
6.1 实验平台 | 第41-43页 |
6.1.1 硬件环境 | 第41页 |
6.1.2 软件环境 | 第41页 |
6.1.3 搭建Hadoop集群 | 第41-43页 |
6.2 实验过程 | 第43-46页 |
6.2.1 数据预处理 | 第43页 |
6.2.2 实验结果与分析 | 第43-46页 |
6.3 本章小结 | 第46-47页 |
第7章 总结与展望 | 第47-49页 |
7.1 论文的总结 | 第47页 |
7.2 未来展望 | 第47-49页 |
参考文献 | 第49-52页 |
致谢 | 第52页 |