摘要 | 第4-5页 |
ABSTRACT | 第5-6页 |
第一章 绪论 | 第9-14页 |
1.1 研究背景 | 第9-11页 |
1.2 研究内容 | 第11-12页 |
1.3 本文结构 | 第12-14页 |
第二章 相关技术介绍 | 第14-33页 |
2.1 数据挖掘 | 第14-15页 |
2.2 开源云计算技术 | 第15-32页 |
2.2.1 Hadoop1.0 | 第16-19页 |
2.2.2 YARN(Hadoop2.0) | 第19-23页 |
2.2.3 Spark生态系统 | 第23-30页 |
2.2.4 Storm实时数据处理技术 | 第30-32页 |
2.3 本章小结 | 第32-33页 |
第三章 多计算框架分析与对比 | 第33-47页 |
3.1 开源计算框架对比 | 第33-43页 |
3.1.1 Hadoop1.0与YARN | 第33-35页 |
3.1.2 Hadoop生态与Spark生态 | 第35-40页 |
3.1.3 YARN与其他资源管理框架 | 第40-41页 |
3.1.4 Storm在流式计算中的优势 | 第41-43页 |
3.2 云平台搭建 | 第43-46页 |
3.2.1 Hadoop安装配置 | 第43-45页 |
3.2.2 Spark安装配置 | 第45页 |
3.2.3 Storm安装配置 | 第45-46页 |
3.3 本章小结 | 第46-47页 |
第四章 基于YARN的数据挖掘系统的架构设计与实现 | 第47-72页 |
4.1 系统架构设计 | 第47-52页 |
4.1.1 系统整体架构设计 | 第47-49页 |
4.1.2 系统云平台层设计 | 第49-52页 |
4.2 已有PDM系统向YARN迁移 | 第52-57页 |
4.2.1 Hadoop2.0向后兼容性研究 | 第52-56页 |
4.2.2 系统向YARN迁移 | 第56-57页 |
4.3 典型数据挖掘算法多框架实现 | 第57-70页 |
4.3.1 k均值算法 | 第58-61页 |
4.3.2 逻辑回归算法 | 第61-63页 |
4.3.3 决策树算法 | 第63-67页 |
4.3.4 朴素贝叶斯算法 | 第67-70页 |
4.4 PDM平台Spark算法组件的集成 | 第70-71页 |
4.5 本章小结 | 第71-72页 |
第五章 实验及结果分析 | 第72-90页 |
5.1 PDM平台功能性测试 | 第72-79页 |
5.1.1 系统整体性功能测试 | 第72-73页 |
5.1.2 Hadoop参数调优工具测试 | 第73-75页 |
5.1.3 Spark算法组件测试 | 第75-79页 |
5.2 云平台层性能测试 | 第79-86页 |
5.2.1 C4.5决策树算法性能对比 | 第80-84页 |
5.2.2 k均值算法性能对比 | 第84-85页 |
5.2.3 MapReduce、Spark性能对比总结 | 第85-86页 |
5.3 实时系统性能监控与测试 | 第86-89页 |
5.4 本章小结 | 第89-90页 |
第六章 总结与展望 | 第90-91页 |
参考文献 | 第91-93页 |
致谢 | 第93-94页 |
攻读学位期间发表的学术论文 | 第94页 |