基于Hadoop2.0的数据挖掘算法并行化研究

摘要	第4-6页
ABSTRACT	第6-7页
目录	第8-11页
CONTENTS	第11-14页
第一章绪论	第14-18页
1.1 论文的研究背景及意义	第14-15页
1.2 国内外研究现状	第15页
1.3 本论文的主要工作	第15-16页
1.4 本论文的组织结构	第16-18页
第二章数据挖掘与云计算	第18-29页
2.1 数据挖掘	第18-25页
2.1.1 数据挖掘概述	第18-19页
2.1.2 决策树分类算法	第19-22页
2.1.3 k-means聚类算法	第22-25页
2.2 云计算	第25-28页
2.2.1 云计算定义	第25-26页
2.2.2 云计算核心技术	第26-27页
2.2.3 基于云计算平台的数据挖掘系统	第27-28页
2.3 本章小结	第28-29页
第三章 Hadoop平台架构研究	第29-40页
3.1 Hadoop平台概述	第29-31页
3.1.1 Hadoop总体介绍	第29页
3.1.2 Hadoop核心模块与相关项目介绍	第29-31页
3.2 Hadoop的分布式文件系统HDFS	第31-34页
3.2.1 HDFS的基本架构	第31-33页
3.2.2 HDFS的HA方案	第33-34页
3.3 Hadoop的资源管理系统YARN	第34-39页
3.3.1 YARN架构简介	第34-36页
3.3.2 YARN的工作流程	第36-38页
3.3.3 YARN支持的多计算框架	第38-39页
3.4 本章小结	第39-40页
第四章基于MapReduce的决策树算法并行实现	第40-51页
4.1 SPRINT决策树算法	第40-42页
4.1.1 算法简介	第40-42页
4.1.2 基本步骤	第42页
4.2 离线式计算框架MapReduce	第42-44页
4.2.1 编程模型	第42-43页
4.2.2 资源管理与作业控制	第43-44页
4.2.3 数据引擎	第44页
4.3 SPRINT算法的并行实现	第44-50页
4.3.1 并行化方案设计	第44-47页
4.3.2 基于MapReduce框架的算法具体实现	第47-50页
4.4 本章小结	第50-51页
第五章基于Spark框架的k-means聚类算法并行实现	第51-62页
5.1 canopy聚类算法	第51-52页
5.1.1 算法简介	第51-52页
5.1.2 基本步骤	第52页
5.2 内存式计算框架Spark	第52-56页
5.2.1 Spark与MapReduce的异同	第53页
5.2.2 Spark的核心特点	第53-55页
5.2.3 Spark实现模式	第55-56页
5.3 Cank-means算法的并行实现	第56-61页
5.3.1 算法并行化方案设计	第56-59页
5.3.2 基于Spark框架的算法并行化实现	第59-61页
5.4 本章小结	第61-62页
第六章实验环境与结果分析	第62-69页
6.1 实验环境	第62页
6.2 实验结果与分析	第62-68页
6.2.1 SPRINT算法并行化实验	第63-65页
6.2.2 Cank-means算法并行化实验	第65-67页
6.2.3 MapReduce框架与Spark框架性能对比	第67-68页
6.3 本章小结	第68-69页
工作总结与展望	第69-70页
参考文献	第70-73页
攻读学位期间申请的专利和发表论文	第73-75页
致谢	第75页