基于Hadoop的共享决策树挖掘算法研究

摘要	第5-6页
ABSTRACT	第6-7页
插图索引	第11-12页
附表索引	第12-13页
第1章绪论	第13-17页
1.1 研究背景和意义	第13-14页
1.2 云计算技术研究现状	第14-15页
1.3 本文的主要工作	第15-16页
1.4 本文的组织结构	第16-17页
第2章相关工作	第17-33页
2.1 共享知识挖掘的基本概念	第17-20页
2.1.1 迁移学习	第17-19页
2.1.2 共享知识挖掘	第19-20页
2.2 决策树挖掘算法	第20-21页
2.3 并行决策树挖掘算法	第21-23页
2.3.1 决策树挖掘算法的并行性	第21-22页
2.3.2 并行决策树挖掘算法	第22-23页
2.4 并行程序开发环境	第23-26页
2.4.1 OpenMP 并行编程模型	第23-24页
2.4.2 消息传递机制 MPI	第24-26页
2.4.3 MapReduce 模型	第26页
2.5 HADOOP 并行平台	第26-32页
2.5.1 Hadoop 技术背景	第26-27页
2.5.2 MapReduce 模型	第27-28页
2.5.3 Hadoop 分布式文件系统	第28-30页
2.5.4 任务执行过程中的容错处理	第30-32页
2.6 本章小结	第32-33页
第3章基于 HADOOP 的基本并行共享决策树挖掘算法	第33-48页
3.1 引言	第33页
3.2 串行共享决策树挖掘	第33-35页
3.2.1 共享决策树挖掘的基本概念	第33-35页
3.2.2 串行的共享决策树挖掘算法 (SDT)	第35页
3.3 并行共享决策树挖掘算法（ PSDT）	第35-46页
3.3.1 并行共享决策树挖掘的相关定义	第35-37页
3.3.2 并行性分析	第37-38页
3.3.3 并行策略	第38-40页
3.3.4 算法设计	第40-46页
3.4 算法分析	第46-47页
3.5 本章小结	第47-48页
第4章基于混合数据结构的并行共享决策树挖掘算法	第48-57页
4.1 前言	第48页
4.2 HADOOP 平台的 I/O 瓶颈	第48-49页
4.3 传统的属性表结构	第49-51页
4.3.1 存储代价	第49-50页
4.3.2 分裂过程	第50-51页
4.4 混合并行共享决策树挖掘算法（ HPSDT）	第51-55页
4.4.1 算法思想	第51页
4.4.2 算法设计	第51-55页
4.5 算法分析	第55-56页
4.6 本章小结	第56-57页
第5章实验分析	第57-65页
5.1 实验平台搭建	第57-60页
5.1.1 硬件描述	第57页
5.1.2 软件描述	第57页
5.1.3 Hadoop 平台搭建	第57-60页
5.2 实验数据	第60页
5.2.1 实验数据	第60页
5.2.2 数据合成	第60页
5.3 PSDT 算法实验	第60-62页
5.3.1 可扩展性	第60-61页
5.3.2 加速比	第61-62页
5.4 HPSDT 与 PSDT 性能比较	第62-63页
5.5 集群规模实验	第63-64页
5.6 本章小结	第64-65页
结论与展望	第65-67页
参考文献	第67-73页
致谢	第73-74页
附录 A （攻读学位期间发表的论文与获得的成果）	第74页