Spark集群Shuffle机制研究

摘要	第3-4页
abstract	第4页
第1章绪论	第12-21页
1.1 研究背景与意义	第12-15页
1.2 研究现状	第15-19页
1.3 主要研究工作	第19页
1.4 论文的组织架构	第19-21页
第2章技术基础	第21-36页
2.1 Spark框架概述	第21-23页
2.2 RDD	第23-28页
2.2.1 RDD的依赖	第24-25页
2.2.2 Spark算子分类	第25-27页
2.2.3 RDD的持久化	第27-28页
2.3 Spark运行机制	第28-34页
2.3.1 资源分配	第29-30页
2.3.2 作业执行	第30-32页
2.3.3 调度与任务分配	第32-34页
2.4 Spark和Hadoop的shuffle过程对比	第34-35页
2.5 本章小结	第35-36页
第3章优化的shuffle均衡调度策略	第36-48页
3.1 概述	第36页
3.2 相关工作	第36-37页
3.3 Shuffle机制	第37-38页
3.4 优化的shuffle机制	第38-44页
3.4.1 问题分析	第38-40页
3.4.2 Shuffle fetch优化	第40-44页
3.5 实验结果与分析	第44-47页
3.5.1 实验环境	第44-45页
3.5.2 结果与分析	第45-47页
3.6 本章小结	第47-48页
第4章基于本地性的分区策略	第48-63页
4.1 概述	第48页
4.2 相关工作	第48-49页
4.3 问题分析	第49-53页
4.3.1 数据倾斜	第50-52页
4.3.2 数据本地性	第52-53页
4.4 优化方案	第53-56页
4.4.1 基本定义	第53-54页
4.4.2 数据倾斜分析	第54-56页
4.5 基于本地性的分区策略	第56-60页
4.5.1 数据分布信息统计	第56-58页
4.5.2 数据集分布	第58页
4.5.3 分区策略	第58-60页
4.6 实验结果及分析	第60-62页
4.6.1 实验环境	第60页
4.6.2 结果与分析	第60-62页
4.7 本章小结	第62-63页
第5章总结与展望	第63-65页
5.1 总结	第63-64页
5.2 未来工作	第64-65页
参考文献	第65-70页
致谢	第70-71页
攻读硕士学位期间从事的科研工作及取得的成果	第71页