基于Spark的分类回归树算法并行性研究
| 中文摘要 | 第3-4页 |
| 英文摘要 | 第4页 |
| 1 绪论 | 第7-11页 |
| 1.1 研究背景与意义 | 第7-8页 |
| 1.2 研究现状 | 第8-9页 |
| 1.3 本文贡献 | 第9页 |
| 1.4 本文结构 | 第9-11页 |
| 2 决策树算法的概述 | 第11-28页 |
| 2.1 决策树算法的一些基本概念介绍 | 第11-12页 |
| 2.2 决策树算法的处理流程 | 第12-14页 |
| 2.2.1 决策树的构树过程 | 第12-14页 |
| 2.2.2 决策树的应用过程 | 第14页 |
| 2.3 决策树算法关键技术与内容 | 第14-21页 |
| 2.3.1 数据预处理技术 | 第14-15页 |
| 2.3.2 分割属性的选取标准 | 第15-16页 |
| 2.3.3 决策树的剪枝 | 第16-19页 |
| 2.3.4 决策树的并行性 | 第19-20页 |
| 2.3.5 增量式决策树 | 第20-21页 |
| 2.4 CART算法介绍 | 第21-28页 |
| 2.4.1 两种数据类型的Gini指数 | 第22-23页 |
| 2.4.2 示例展示 | 第23-24页 |
| 2.4.3 剪枝操作 | 第24-26页 |
| 2.4.4 算法描述 | 第26-28页 |
| 3 基于Spark的CART算法改进 | 第28-39页 |
| 3.1 Spark的介绍 | 第28-32页 |
| 3.1.1 Spark的简要介绍 | 第28-29页 |
| 3.1.2 Spark与Hadoop之间的关系 | 第29-30页 |
| 3.1.3 Spark适用场合 | 第30页 |
| 3.1.4 Spark国内外成功案例 | 第30-32页 |
| 3.2 CART算法的不足和改进 | 第32-36页 |
| 3.2.1 CART算法改进点描述 | 第32-35页 |
| 3.2.2 算法流程的改进描述 | 第35-36页 |
| 3.3 基于Spark的CART并行化改造 | 第36-39页 |
| 3.3.1 算法流程的改进描述 | 第36-37页 |
| 3.3.2 Spark并行计算过程描述 | 第37-39页 |
| 4 平台搭建与实验 | 第39-50页 |
| 4.1 实验平台的介绍 | 第39-41页 |
| 4.1.1 硬件环境 | 第39页 |
| 4.1.2 软件环境 | 第39页 |
| 4.1.3 Spark集群环境 | 第39-41页 |
| 4.2 实验过程 | 第41-45页 |
| 4.2.1 实验步骤 | 第42页 |
| 4.2.2 实验过程 | 第42-45页 |
| 4.3 实验结果与分析 | 第45-50页 |
| 5 总结与展望 | 第50-52页 |
| 5.1 全文总结 | 第50页 |
| 5.2 研究展望 | 第50-52页 |
| 致谢 | 第52-53页 |
| 参考文献 | 第53-56页 |
| 附录 | 第56页 |
| A. 作者在攻读学位期间发表的论文目录 | 第56页 |