基于Spark的分类回归树算法并行性研究
中文摘要 | 第3-4页 |
英文摘要 | 第4页 |
1 绪论 | 第7-11页 |
1.1 研究背景与意义 | 第7-8页 |
1.2 研究现状 | 第8-9页 |
1.3 本文贡献 | 第9页 |
1.4 本文结构 | 第9-11页 |
2 决策树算法的概述 | 第11-28页 |
2.1 决策树算法的一些基本概念介绍 | 第11-12页 |
2.2 决策树算法的处理流程 | 第12-14页 |
2.2.1 决策树的构树过程 | 第12-14页 |
2.2.2 决策树的应用过程 | 第14页 |
2.3 决策树算法关键技术与内容 | 第14-21页 |
2.3.1 数据预处理技术 | 第14-15页 |
2.3.2 分割属性的选取标准 | 第15-16页 |
2.3.3 决策树的剪枝 | 第16-19页 |
2.3.4 决策树的并行性 | 第19-20页 |
2.3.5 增量式决策树 | 第20-21页 |
2.4 CART算法介绍 | 第21-28页 |
2.4.1 两种数据类型的Gini指数 | 第22-23页 |
2.4.2 示例展示 | 第23-24页 |
2.4.3 剪枝操作 | 第24-26页 |
2.4.4 算法描述 | 第26-28页 |
3 基于Spark的CART算法改进 | 第28-39页 |
3.1 Spark的介绍 | 第28-32页 |
3.1.1 Spark的简要介绍 | 第28-29页 |
3.1.2 Spark与Hadoop之间的关系 | 第29-30页 |
3.1.3 Spark适用场合 | 第30页 |
3.1.4 Spark国内外成功案例 | 第30-32页 |
3.2 CART算法的不足和改进 | 第32-36页 |
3.2.1 CART算法改进点描述 | 第32-35页 |
3.2.2 算法流程的改进描述 | 第35-36页 |
3.3 基于Spark的CART并行化改造 | 第36-39页 |
3.3.1 算法流程的改进描述 | 第36-37页 |
3.3.2 Spark并行计算过程描述 | 第37-39页 |
4 平台搭建与实验 | 第39-50页 |
4.1 实验平台的介绍 | 第39-41页 |
4.1.1 硬件环境 | 第39页 |
4.1.2 软件环境 | 第39页 |
4.1.3 Spark集群环境 | 第39-41页 |
4.2 实验过程 | 第41-45页 |
4.2.1 实验步骤 | 第42页 |
4.2.2 实验过程 | 第42-45页 |
4.3 实验结果与分析 | 第45-50页 |
5 总结与展望 | 第50-52页 |
5.1 全文总结 | 第50页 |
5.2 研究展望 | 第50-52页 |
致谢 | 第52-53页 |
参考文献 | 第53-56页 |
附录 | 第56页 |
A. 作者在攻读学位期间发表的论文目录 | 第56页 |