基于Hadoop的数据挖掘算法并行化研究

摘要	第6-7页
ABSTRACT	第7-8页
第1章绪论	第11-16页
1.1 研究背景及意义	第11-12页
1.2 研究现状	第12-14页
1.3 主要研究工作	第14-15页
1.4 论文组织结构	第15-16页
第2章相关技术研究	第16-23页
2.1 数据挖掘概述	第16-21页
2.1.1 数据挖掘发展史	第16页
2.1.2 数据挖掘基本流程	第16-18页
2.1.3 聚类分析	第18-19页
2.1.4 分类	第19-21页
2.2 Hadoop平台	第21-23页
2.2.1 HDFS	第22-23页
2.2.2 Yarn	第23页
2.2.3 MapReduce	第23页
2.3 本章小结	第23页
第3章 CANOPY KMEANS算法并行化设计	第23页
3.1 Kmeans算法	第23页
3.2 Canopy算法	第23页
3.3 Canopy_Kmeans算法的并行设计	第23页
3.4 Canopy_Kmeans算法的并行实现	第23页
3.5 实验结果与分析	第23页
3.6 本章小结	第23页
第4章 SRF算法并行化设计	第23-58页
4.1 决策树	第23页
4.1.1 决策树简介	第23页
4.1.2 决策树节点分裂准则	第23页
4.1.3 决策树存在问题	第23页
4.2 随机森林	第23页
4.2.1 随机森林简介	第23页
4.2.2 随机森林算法问题	第23页
4.2.2.1 树的数量	第23页
4.2.2.2 属性特征的选择	第23页
4.3 SRF算法设计	第23页
4.3.1 SRF算法中决策树精度的改进策略	第23页
4.3.2 SRF算法中属性特征子空间的选择策略	第23页
4.3.3 SRF算法中应对非平衡数据集的策略	第23页
4.3.4 SRF算法中决策树模型的选择策略	第23页
4.3.5 SRF算法的串行设计	第23页
4.4 SRF算法并行设计	第23页
4.5 SRF算法并行实现	第23页
4.6 实验结果与分析	第23页
4.7 本章小结	第23-58页
总结与展望	第58-59页
致谢	第59-60页
参考文献	第60-64页
攻读硕士学位期间发表的文章	第64页