基于并行随机森林的在线贷款逾期预测研究

摘要	第5-6页
Abstract	第6页
第一章绪论	第9-17页
1.1 选题背景和意义	第9-10页
1.2 国内外相关研究	第10-16页
1.2.1 贷款违约预测研究现状	第10-14页
1.2.2 Spark研究现状	第14-15页
1.2.3 随机森林研究现状	第15-16页
1.3 本文的工作和组织结构	第16-17页
第二章本文相关理论知识	第17-26页
2.1 数据挖掘及常见分类算法简介	第17-20页
2.1.1 数据挖掘概念	第17页
2.1.2 数据挖掘过程	第17-18页
2.1.3 分类算法概述	第18-20页
2.2 非平衡数据分类	第20-22页
2.2.1 非平衡数据分类问题的本质	第21页
2.2.2 常见非平衡分类解决方案	第21-22页
2.3 随机森林的算法原理介绍	第22-23页
2.4 Spark并行计算框架	第23-26页
2.4.1 Spark体系框架	第24页
2.4.2 Spark RDD及程序流程	第24-26页
第三章加权并行随机森林算法的分析与设计	第26-38页
3.1 加权随机森林	第26-29页
3.1.1 传统随机森林的不足之处	第26-27页
3.1.2 本文提出的加权随机森林的算法介绍	第27-29页
3.2 基于Spark的并行随机森林的设计	第29-38页
3.2.1 并行性研究	第29-30页
3.2.2 本文采取的并行优化策略	第30-31页
3.2.3 并行随机森林算法流程及描述	第31-38页
第四章实验结果与分析	第38-51页
4.1 实验环境	第38页
4.2 数据集说明	第38-40页
4.3 评估方法和评估标准	第40-41页
4.4 实验结果与分析	第41-50页
4.4.1 参数设置	第41-42页
4.4.2 模型调优	第42-44页
4.4.3 决策树的权重	第44-46页
4.4.4 并行优化效果比较	第46页
4.4.5 数据综合采样方法比较	第46-47页
4.4.6 模型比较	第47-48页
4.4.7 算法并行性能测试	第48-49页
4.4.8 模型应用效果分析	第49-50页
4.5 小结	第50-51页
第五章总结与展望	第51-53页
5.1 总结	第51页
5.2 下一步工作展望	第51-53页
参考文献	第53-58页
致谢	第58-59页
答辩委员签名的答辩决议书	第59页