基于Hadoop平台的并行决策树算法研究
摘要 | 第3-4页 |
ABSTRACT | 第4-5页 |
1 绪论 | 第8-13页 |
1.1 研究背景及意义 | 第8-9页 |
1.2 研究现状 | 第9-11页 |
1.2.1 Hadoop的研究现状 | 第9-10页 |
1.2.2 决策树并行化算法研究现状 | 第10-11页 |
1.3 本文主要工作 | 第11页 |
1.4 本文组织结构 | 第11-13页 |
2 相关理论与技术 | 第13-21页 |
2.1 决策树方法介绍 | 第13-14页 |
2.1.1 决策树方法概述 | 第13-14页 |
2.1.2 决策树的剪枝 | 第14页 |
2.2 Hadoop平台简介 | 第14-20页 |
2.2.1 Hadoop平台框架 | 第15-16页 |
2.2.2 HDFS分布式文件系统 | 第16-17页 |
2.2.3 MapReduce分布式计算框架 | 第17-20页 |
2.3 本章小结 | 第20-21页 |
3 基于Hadoop的并行化决策树算法 | 第21-37页 |
3.1 决策树串行算法设计 | 第21-23页 |
3.2 HD_C4.5算法并行化设计 | 第23-30页 |
3.2.1 算法设计 | 第23-27页 |
3.2.2 MapReduce处理过程 | 第27-29页 |
3.2.3 算法示例 | 第29-30页 |
3.3 实验设计与结果分析 | 第30-35页 |
3.3.1 实验环境 | 第30-32页 |
3.3.2 评价指标 | 第32-33页 |
3.3.3 实验结果与分析 | 第33-35页 |
3.4 本章小结 | 第35-37页 |
4 共享决策树并行化改进算法 | 第37-53页 |
4.1 共享决策树算法概述 | 第37-39页 |
4.2 剪枝标准IEP建模 | 第39-40页 |
4.3 并行共享决策树算法 | 第40-41页 |
4.4 PSDT-IEP算法的并行化 | 第41-48页 |
4.4.1 并行性分析 | 第41页 |
4.4.2 并行策略 | 第41-43页 |
4.4.3 算法设计步骤 | 第43-48页 |
4.4.4 算法分析 | 第48页 |
4.5 实验设计与结果分析 | 第48-51页 |
4.5.1 实验环境 | 第49页 |
4.5.2 数据合成 | 第49页 |
4.5.3 实验结果与分析 | 第49-51页 |
4.6 本章小结 | 第51-53页 |
5 总结及展望 | 第53-55页 |
5.1 总结 | 第53页 |
5.2 展望 | 第53-55页 |
致谢 | 第55-56页 |
参考文献 | 第56-59页 |
附录 | 第59页 |