基于Hadoop的数据挖掘算法并行化研究
| 摘要 | 第6-7页 |
| ABSTRACT | 第7-8页 |
| 第1章 绪论 | 第11-16页 |
| 1.1 研究背景及意义 | 第11-12页 |
| 1.2 研究现状 | 第12-14页 |
| 1.3 主要研究工作 | 第14-15页 |
| 1.4 论文组织结构 | 第15-16页 |
| 第2章 相关技术研究 | 第16-23页 |
| 2.1 数据挖掘概述 | 第16-21页 |
| 2.1.1 数据挖掘发展史 | 第16页 |
| 2.1.2 数据挖掘基本流程 | 第16-18页 |
| 2.1.3 聚类分析 | 第18-19页 |
| 2.1.4 分类 | 第19-21页 |
| 2.2 Hadoop平台 | 第21-23页 |
| 2.2.1 HDFS | 第22-23页 |
| 2.2.2 Yarn | 第23页 |
| 2.2.3 MapReduce | 第23页 |
| 2.3 本章小结 | 第23页 |
| 第3章 CANOPY KMEANS算法并行化设计 | 第23页 |
| 3.1 Kmeans算法 | 第23页 |
| 3.2 Canopy算法 | 第23页 |
| 3.3 Canopy_Kmeans算法的并行设计 | 第23页 |
| 3.4 Canopy_Kmeans算法的并行实现 | 第23页 |
| 3.5 实验结果与分析 | 第23页 |
| 3.6 本章小结 | 第23页 |
| 第4章 SRF算法并行化设计 | 第23-58页 |
| 4.1 决策树 | 第23页 |
| 4.1.1 决策树简介 | 第23页 |
| 4.1.2 决策树节点分裂准则 | 第23页 |
| 4.1.3 决策树存在问题 | 第23页 |
| 4.2 随机森林 | 第23页 |
| 4.2.1 随机森林简介 | 第23页 |
| 4.2.2 随机森林算法问题 | 第23页 |
| 4.2.2.1 树的数量 | 第23页 |
| 4.2.2.2 属性特征的选择 | 第23页 |
| 4.3 SRF算法设计 | 第23页 |
| 4.3.1 SRF算法中决策树精度的改进策略 | 第23页 |
| 4.3.2 SRF算法中属性特征子空间的选择策略 | 第23页 |
| 4.3.3 SRF算法中应对非平衡数据集的策略 | 第23页 |
| 4.3.4 SRF算法中决策树模型的选择策略 | 第23页 |
| 4.3.5 SRF算法的串行设计 | 第23页 |
| 4.4 SRF算法并行设计 | 第23页 |
| 4.5 SRF算法并行实现 | 第23页 |
| 4.6 实验结果与分析 | 第23页 |
| 4.7 本章小结 | 第23-58页 |
| 总结与展望 | 第58-59页 |
| 致谢 | 第59-60页 |
| 参考文献 | 第60-64页 |
| 攻读硕士学位期间发表的文章 | 第64页 |