基于YARN的数据挖掘系统的设计与实现

摘要	第4-5页
ABSTRACT	第5-6页
第一章绪论	第9-14页
1.1 研究背景	第9-11页
1.2 研究内容	第11-12页
1.3 本文结构	第12-14页
第二章相关技术介绍	第14-33页
2.1 数据挖掘	第14-15页
2.2 开源云计算技术	第15-32页
2.2.1 Hadoop1.0	第16-19页
2.2.2 YARN(Hadoop2.0)	第19-23页
2.2.3 Spark生态系统	第23-30页
2.2.4 Storm实时数据处理技术	第30-32页
2.3 本章小结	第32-33页
第三章多计算框架分析与对比	第33-47页
3.1 开源计算框架对比	第33-43页
3.1.1 Hadoop1.0与YARN	第33-35页
3.1.2 Hadoop生态与Spark生态	第35-40页
3.1.3 YARN与其他资源管理框架	第40-41页
3.1.4 Storm在流式计算中的优势	第41-43页
3.2 云平台搭建	第43-46页
3.2.1 Hadoop安装配置	第43-45页
3.2.2 Spark安装配置	第45页
3.2.3 Storm安装配置	第45-46页
3.3 本章小结	第46-47页
第四章基于YARN的数据挖掘系统的架构设计与实现	第47-72页
4.1 系统架构设计	第47-52页
4.1.1 系统整体架构设计	第47-49页
4.1.2 系统云平台层设计	第49-52页
4.2 已有PDM系统向YARN迁移	第52-57页
4.2.1 Hadoop2.0向后兼容性研究	第52-56页
4.2.2 系统向YARN迁移	第56-57页
4.3 典型数据挖掘算法多框架实现	第57-70页
4.3.1 k均值算法	第58-61页
4.3.2 逻辑回归算法	第61-63页
4.3.3 决策树算法	第63-67页
4.3.4 朴素贝叶斯算法	第67-70页
4.4 PDM平台Spark算法组件的集成	第70-71页
4.5 本章小结	第71-72页
第五章实验及结果分析	第72-90页
5.1 PDM平台功能性测试	第72-79页
5.1.1 系统整体性功能测试	第72-73页
5.1.2 Hadoop参数调优工具测试	第73-75页
5.1.3 Spark算法组件测试	第75-79页
5.2 云平台层性能测试	第79-86页
5.2.1 C4.5决策树算法性能对比	第80-84页
5.2.2 k均值算法性能对比	第84-85页
5.2.3 MapReduce、Spark性能对比总结	第85-86页
5.3 实时系统性能监控与测试	第86-89页
5.4 本章小结	第89-90页
第六章总结与展望	第90-91页
参考文献	第91-93页
致谢	第93-94页
攻读学位期间发表的学术论文	第94页