Hadoop平台下基于数据量的资源分配预测策略

摘要	第5-6页
ABSTRACT	第6页
第一章绪论	第9-14页
1.1 本文研究背景和意义	第9页
1.2 Hadoop平台的研究现状	第9-12页
1.2.1 减少网络负载的优化	第10页
1.2.2 降低集群能耗的优化	第10-11页
1.2.3 集群容错性的优化	第11页
1.2.4 集群负载均衡的优化	第11-12页
1.3 本文的研究内容	第12-13页
1.4 本文的组织结构	第13-14页
第二章 Hadoop平台简介	第14-25页
2.1 大数据发展背景	第14-15页
2.2 Hadoop的起源与发展	第15-16页
2.3 Hadoop工作原理和组织架构	第16-24页
2.3.1 分布式文件系统HDFS	第16-17页
2.3.2 MapReduce分布式计算框架	第17-21页
2.3.3 Hadoop版本改进	第21-24页
2.4 本章小结	第24-25页
第三章 Hadoop平台的中间数据分配策略研究	第25-31页
3.1 中间数据分配策略概述	第25页
3.2 现有数据分配策略介绍	第25-28页
3.2.1 HashPartitioner	第25-27页
3.2.2 TotalOrderPartitioner	第27-28页
3.3 本文策略的产生背景与设计思路	第28-29页
3.4 本章小结	第29-31页
第四章基于数据量的Reduce完成时间预测	第31-42页
4.1 预测分配数据量	第31-33页
4.2 数据量与作业完成时间的关系	第33-34页
4.3 计算资源与作业完成时间的关系	第34-39页
4.3.1 Yarn的资源配置参数	第35-36页
4.3.2 CPU资源与Reduce完成时间的关系探究	第36-37页
4.3.3 内存资源与Reduce完成时间的关系探究	第37-39页
4.4 Reduce完成时间模型的建立	第39页
4.5 实验验证	第39-41页
4.5.1 试验环境的选择与设置	第39-40页
4.5.2 预测Reduce处理数据量的准确性	第40-41页
4.5.3 预测Reduce完成时间的准确性	第41页
4.6 本章小结	第41-42页
第五章基于Reduce完成时间的资源分配预测	第42-50页
5.1 Hadoop的计算资源分配规则	第42-43页
5.2 仅内存资源分配预测	第43-44页
5.3 CPU和内存资源分配预测	第44-46页
5.4 实验验证	第46-49页
5.4.1 试验环境的选择与设置	第46页
5.4.2 作业完成时间对比	第46-49页
5.5 本章小结	第49-50页
第六章总结与展望	第50-52页
6.1 研究工作总结	第50-51页
6.2 未来工作展望	第51-52页
参考文献	第52-56页
致谢	第56-57页
附录A	第57页
攻读硕士学位期间发表的学术论文	第57页
参与的科研项目	第57页