摘要 | 第10-12页 |
ABSTRACT | 第12-14页 |
第一章 绪论 | 第15-44页 |
1.1 大数据研究背景 | 第15-21页 |
1.1.1 大数据的起源与发展 | 第15-16页 |
1.1.2 主流的大数据处理平台 | 第16-21页 |
1.2 MapReduce研究现状 | 第21-32页 |
1.2.1 MapReduce编程模型 | 第21-23页 |
1.2.2 Hadoop YARN的资源管理机制 | 第23-25页 |
1.2.3 面向MapReduce的研究热点 | 第25-32页 |
1.3 数据倾斜问题研究现状 | 第32-40页 |
1.3.1 非实时数据倾斜消除方法 | 第33-35页 |
1.3.2 实时数据倾斜消除方法 | 第35-38页 |
1.3.3 现有研究的缺陷 | 第38-40页 |
1.4 主要研究工作及贡献 | 第40-42页 |
1.5 文章结构 | 第42-44页 |
第二章 实时的redcue任务负载估计方法 | 第44-72页 |
2.1 研究动机 | 第44-46页 |
2.2 reduce任务负载的构成 | 第46-47页 |
2.3 基于线性回归的reduce任务负载估计方法 | 第47-51页 |
2.3.1 算法设计 | 第48-50页 |
2.3.2 具体实现 | 第50-51页 |
2.4 基于重采样的reduce任务负载估计方法 | 第51-59页 |
2.4.1 工作流程 | 第51-52页 |
2.4.2 负载的估计量及其精度估计 | 第52-57页 |
2.4.3 具体实现 | 第57-59页 |
2.5 性能评价 | 第59-65页 |
2.5.1 精确度评价 | 第61-64页 |
2.5.2 鲁棒性分析 | 第64-65页 |
2.6 负载估计技术的应用验证 | 第65-70页 |
2.7 小结 | 第70-72页 |
第三章 基于工作档案的划分倾斜消除方法 | 第72-97页 |
3.1 研究动机 | 第72-74页 |
3.2 系统架构 | 第74-76页 |
3.3 DREAMS设计 | 第76-83页 |
3.3.1 reduce任务性能模型 | 第76-81页 |
3.3.2 动态资源分配算法 | 第81-83页 |
3.4 性能评价 | 第83-95页 |
3.4.1 负载估计的精确度 | 第85-87页 |
3.4.2 reduce任务性能模型的精确度 | 第87-92页 |
3.4.3 作业完成时间 | 第92-95页 |
3.5 讨论 | 第95页 |
3.6 小结 | 第95-97页 |
第四章 基于超载任务检测的划分倾斜消除方法 | 第97-111页 |
4.1 研究动机 | 第97-99页 |
4.2 系统架构 | 第99-100页 |
4.3 OPTIMA设计 | 第100-105页 |
4.3.1 检测超载任务 | 第100-103页 |
4.3.2 动态资源分配算法 | 第103-105页 |
4.4 性能评价 | 第105-109页 |
4.4.1 负载估计的精确度 | 第106页 |
4.4.2 超载任务检测评估 | 第106-107页 |
4.4.3 作业完成时间 | 第107-109页 |
4.5 小结 | 第109-111页 |
第五章 基于任务剩余时间估计的数据倾斜消除方法 | 第111-128页 |
5.1 研究动机 | 第111-112页 |
5.2 系统架构 | 第112-114页 |
5.3 DynamicAdjust设计 | 第114-120页 |
5.3.1 倾斜任务的实时检测技术 | 第114-116页 |
5.3.2 阶段感知的任务剩余时间估计 | 第116-118页 |
5.3.3 资源自适应机制 | 第118-120页 |
5.4 性能评价 | 第120-126页 |
5.4.1 倾斜任务检测的精确度 | 第122-124页 |
5.4.2 作业完成时间 | 第124-126页 |
5.5 小结 | 第126-128页 |
第六章 总结与展望 | 第128-132页 |
6.1 工作总结 | 第128-130页 |
6.2 下一步工作 | 第130-132页 |
致谢 | 第132-135页 |
参考文献 | 第135-145页 |
作者在学期间取得的学术成果 | 第145-146页 |