基于Hadoop的数据挖掘算法并行化研究
摘要 | 第6-7页 |
ABSTRACT | 第7-8页 |
第1章 绪论 | 第11-16页 |
1.1 研究背景及意义 | 第11-12页 |
1.2 研究现状 | 第12-14页 |
1.3 主要研究工作 | 第14-15页 |
1.4 论文组织结构 | 第15-16页 |
第2章 相关技术研究 | 第16-23页 |
2.1 数据挖掘概述 | 第16-21页 |
2.1.1 数据挖掘发展史 | 第16页 |
2.1.2 数据挖掘基本流程 | 第16-18页 |
2.1.3 聚类分析 | 第18-19页 |
2.1.4 分类 | 第19-21页 |
2.2 Hadoop平台 | 第21-23页 |
2.2.1 HDFS | 第22-23页 |
2.2.2 Yarn | 第23页 |
2.2.3 MapReduce | 第23页 |
2.3 本章小结 | 第23页 |
第3章 CANOPY KMEANS算法并行化设计 | 第23页 |
3.1 Kmeans算法 | 第23页 |
3.2 Canopy算法 | 第23页 |
3.3 Canopy_Kmeans算法的并行设计 | 第23页 |
3.4 Canopy_Kmeans算法的并行实现 | 第23页 |
3.5 实验结果与分析 | 第23页 |
3.6 本章小结 | 第23页 |
第4章 SRF算法并行化设计 | 第23-58页 |
4.1 决策树 | 第23页 |
4.1.1 决策树简介 | 第23页 |
4.1.2 决策树节点分裂准则 | 第23页 |
4.1.3 决策树存在问题 | 第23页 |
4.2 随机森林 | 第23页 |
4.2.1 随机森林简介 | 第23页 |
4.2.2 随机森林算法问题 | 第23页 |
4.2.2.1 树的数量 | 第23页 |
4.2.2.2 属性特征的选择 | 第23页 |
4.3 SRF算法设计 | 第23页 |
4.3.1 SRF算法中决策树精度的改进策略 | 第23页 |
4.3.2 SRF算法中属性特征子空间的选择策略 | 第23页 |
4.3.3 SRF算法中应对非平衡数据集的策略 | 第23页 |
4.3.4 SRF算法中决策树模型的选择策略 | 第23页 |
4.3.5 SRF算法的串行设计 | 第23页 |
4.4 SRF算法并行设计 | 第23页 |
4.5 SRF算法并行实现 | 第23页 |
4.6 实验结果与分析 | 第23页 |
4.7 本章小结 | 第23-58页 |
总结与展望 | 第58-59页 |
致谢 | 第59-60页 |
参考文献 | 第60-64页 |
攻读硕士学位期间发表的文章 | 第64页 |