随机森林算法处理不平衡数据的改进及其并行化

摘要	第4-5页
ABSTRACT	第5页
第一章绪论	第11-15页
1.1 课题的研究背景	第11-12页
1.2 国内外研究现状	第12-14页
1.2.1 将新的算法融合到随机森林算法中	第12-13页
1.2.2 对数据预处理来优化随机森林	第13页
1.2.3 对随机森林自身构建过程进行优化	第13-14页
1.3 本文的结构与主要内容	第14-15页
1.3.1 文本的主要工作	第14页
1.3.2 本文的结构	第14-15页
第二章基本概念和基本理论	第15-30页
2.1 决策树	第15-20页
2.1.1 决策树的定义	第15页
2.1.2 决策树生成过程中的节点分类算法	第15-20页
2.1.3 决策树分类中存着的问题	第20页
2.2 构建随机森林的步骤	第20-23页
2.2.1 单棵决策树样本抽样	第21-22页
2.2.2 单棵决策树的构建	第22页
2.2.3 森林的形成及算法的执行	第22-23页
2.3 随机森林的性能指标	第23-24页
2.3.1 分类效果系列指标	第23-24页
2.3.2 OOB估计	第24页
2.4 Hadoop简介	第24-29页
2.4.1 Hadoop生态系统	第25-26页
2.4.2 Hadoop概述	第26页
2.4.3 Hadoop HDFS架构	第26-28页
2.4.4 Hadoop Mapreduce框架	第28-29页
2.5 本章小结	第29-30页
第三章随机森林处理非平衡数据集的优化研究	第30-39页
3.1 非平衡数据简介	第30-31页
3.2 SMOTE算法和K-means简介	第31-32页
3.2.1 SMOTE算法	第31页
3.2.2 K-means算法	第31-32页
3.3 K_SMOTE算法原理及步骤	第32-33页
3.4 数据集来源	第33-34页
3.5 实验环境	第34页
3.6 实验流程	第34-35页
3.6.1 原始数据集的G-mean和F-value计算过程	第34页
3.6.2 新数据集的G-mean和F-value计算过程	第34-35页
3.7 实验结果及分析	第35-36页
3.7.1 F-value的测试实验	第35页
3.7.2 结果分析	第35-36页
3.8 G-mean的测试实验	第36页
3.8.1 G-mean的测试实验结果	第36页
3.8.2 结果分析	第36页
3.9 验证K-smote算法有效性验证	第36-38页
3.9.1 K-smote算法有效性的验证方法及结果	第36-37页
3.9.2 结果分析	第37-38页
3.10 结论	第38-39页
第四章基于Mapreduce框架随机森林算法并行化研究	第39-43页
4.1 数据集来源	第40页
4.2 实验环境	第40-41页
4.3 评价标准	第41页
4.4 实验结果及分析	第41-42页
4.4.1 实验结果	第41-42页
4.4.2 结果分析	第42页
4.5 结论	第42-43页
结论和展望	第43-44页
参考文献	第44-47页
攻读硕士学位期间发表论文	第47-49页
致谢	第49页