摘要 | 第4-5页 |
abstract | 第5-6页 |
第一章 绪论 | 第10-20页 |
1.1 研究工作的背景及意义 | 第10-12页 |
1.2 国内外研究现状 | 第12-17页 |
1.3 本文的主要研究内容 | 第17-18页 |
1.4 本论文的组织结构 | 第18-19页 |
1.5 本章小结 | 第19-20页 |
第二章 Spark平台介绍 | 第20-34页 |
2.1 Spark设计思想 | 第20-23页 |
2.1.1 Spark概述 | 第20-21页 |
2.1.2 Spark计算模型 | 第21-22页 |
2.1.3 Spark整体架构 | 第22-23页 |
2.2 Spark数据存储体系 | 第23-27页 |
2.2.1 存储整体架构 | 第23-24页 |
2.2.2 数据写入过程 | 第24-26页 |
2.2.3 数据读取过程 | 第26-27页 |
2.3 SparkShuffle分析 | 第27-31页 |
2.3.1 Shuffle概述 | 第27-28页 |
2.3.2 Shuffle写操作 | 第28-30页 |
2.3.3 Shuffle读操作 | 第30-31页 |
2.4 Spark分区方法 | 第31-33页 |
2.4.1 HashPartition分区 | 第31-32页 |
2.4.2 RangePartition分区 | 第32-33页 |
2.5 本章小结 | 第33-34页 |
第三章 Reduce型数据倾斜问题的数据均衡分配算法设计 | 第34-48页 |
3.1 问题描述与建模 | 第34-36页 |
3.1.1 相关定义 | 第34-35页 |
3.1.2 问题建模 | 第35-36页 |
3.2 数据均衡分配算法整体设计 | 第36-37页 |
3.3 抽样算法 | 第37-40页 |
3.3.1 抽样算法分类 | 第37-38页 |
3.3.2 抽样算法设计 | 第38-40页 |
3.4 数据均衡分区算法 | 第40-43页 |
3.5 权重调节算法 | 第43-46页 |
3.5.1 资源监控 | 第43-44页 |
3.5.2 权重调节算法设计 | 第44-46页 |
3.6 任务分配算法设计 | 第46-47页 |
3.7 算法复杂度分析 | 第47页 |
3.8 本章小结 | 第47-48页 |
第四章 Map&Reduce型数据倾斜问题的数据均衡分配算法设计 | 第48-60页 |
4.1 MRFair概述 | 第48-52页 |
4.1.1 MRFair目标和特征 | 第48-49页 |
4.1.2 MRFair系统架构 | 第49-51页 |
4.1.3 MRFair数据均衡分配示例 | 第51-52页 |
4.2 MRFair检测数据倾斜方法 | 第52-53页 |
4.2.1 MRFair倾斜检测时机 | 第52页 |
4.2.2 MRFair倾斜检测算法 | 第52-53页 |
4.3 MRFair数据重分配方法 | 第53-56页 |
4.3.1 MRFair数据重分配时机 | 第53页 |
4.3.2 MRFair数据重分配算法 | 第53-56页 |
4.4 MRFair核心模块 | 第56-59页 |
4.5 本章小结 | 第59-60页 |
第五章 算法测试和分析 | 第60-75页 |
5.1 实验设置 | 第60-62页 |
5.1.1 测试环境 | 第60-61页 |
5.1.2 测试数据 | 第61-62页 |
5.1.3 对比算法 | 第62页 |
5.1.4 评价指标 | 第62页 |
5.2 ReducePartition数据均衡分配算法测试 | 第62-70页 |
5.2.1 WordCount基准测试 | 第62-66页 |
5.2.2 Sort基准测试 | 第66-70页 |
5.3 MRFair数据均衡分配算法测试 | 第70-74页 |
5.3.1 WordCount基准测试 | 第70-72页 |
5.3.2 Sort基准测试 | 第72-74页 |
5.4 本章小结 | 第74-75页 |
第六章 全文总结与展望 | 第75-77页 |
6.1 全文总结 | 第75-76页 |
6.2 未来工作展望 | 第76-77页 |
致谢 | 第77-78页 |
参考文献 | 第78-81页 |
攻读硕士学位期间取得的成果 | 第81-82页 |