摘要 | 第2-4页 |
Abstract | 第4-5页 |
1 绪论 | 第8-14页 |
1.1 问题的提出及研究意义 | 第9-10页 |
1.2 国内外研究现状 | 第10-11页 |
1.2.1 国内研究现状 | 第10页 |
1.2.2 国外研究现状 | 第10-11页 |
1.3 本文的主要内容及结构安排 | 第11-14页 |
1.3.1 本文的主要内容 | 第11-12页 |
1.3.2 本文的结构安排 | 第12-14页 |
2 相关理论研究 | 第14-30页 |
2.1 大数据概述 | 第14-17页 |
2.1.1 大数据的特征 | 第15-17页 |
2.2 Hadoop生态系统 | 第17-23页 |
2.2.1 HDFS分布式文件系统 | 第18页 |
2.2.2 MapReduce框架及计算模型 | 第18-20页 |
2.2.3 YARN架构 | 第20-22页 |
2.2.4 Hbase数据库 | 第22页 |
2.2.5 Zookeeper分布式协作服务 | 第22页 |
2.2.6 Sqoop | 第22页 |
2.2.7 Pig | 第22页 |
2.2.8 Flume工具 | 第22-23页 |
2.3 数据挖掘综述 | 第23-27页 |
2.3.1 数据挖掘方法 | 第23-25页 |
2.3.2 数据挖掘步骤 | 第25-27页 |
2.4 K-means算法理论研究 | 第27-29页 |
2.5 本章小结 | 第29-30页 |
3 基于双MapReduce改进的Canopy-Kmeans算法 | 第30-42页 |
3.1 传统的K-means算法 | 第30页 |
3.2 原始的Canopy-Kmeans算法 | 第30-31页 |
3.3 改进的Canopy-Kmeans算法 | 第31-35页 |
3.3.1 Canopy算法的改进 | 第31-32页 |
3.3.2 K-means算法的改进 | 第32-33页 |
3.3.3 聚类函数收敛性的改进 | 第33-35页 |
3.4 双MapReduce设计的Canopy-Kmeans算法 | 第35-40页 |
3.4.1 基于MapReduce设计的Canopy算法 | 第36-39页 |
3.4.2 基于MapReduce的K-means算法并行化设计 | 第39-40页 |
3.5 本章小结 | 第40-42页 |
4 实验及实验分析 | 第42-56页 |
4.1 Hadoop集群配置与部署 | 第42-48页 |
4.1.1 网络配置 | 第44页 |
4.1.2 安装JDK | 第44-45页 |
4.1.3 建立SSH互信 | 第45页 |
4.1.4 配置Hadoop | 第45-48页 |
4.2 实验数据及结果 | 第48-51页 |
4.2.1 数据准备 | 第48-50页 |
4.2.2 执行Canopy-Kmeans算法模型 | 第50页 |
4.2.3 结果分析 | 第50-51页 |
4.3 算法在Hadoop集群上的性能分析 | 第51-56页 |
4.3.1 算法的准确性分析 | 第51-54页 |
4.3.2 算法的加速比与扩展性分析 | 第54-56页 |
5 结论 | 第56-58页 |
参考文献 | 第58-62页 |
攻读硕士学位期间发表的论文 | 第62-63页 |
致谢 | 第63-65页 |