一种面向MAPREDUCE的DATASHUFFLE的优化方法

摘要	第4-5页
Abstract	第5页
第一章绪论	第9-14页
1.1 课题背景	第9-10页
1.2 课题研究内容	第10-11页
1.3 课题研究意义	第11-12页
1.4 文章组织结构	第12-14页
第二章相关研究及现状.	第14-21页
2.1 大数据研究现状	第14-15页
2.2 Hadoop平台研究现状	第15-16页
2.3 Map Reduce分区算法研究现状	第16-18页
2.3.1 对公平性的研究	第16页
2.3.2 对数据本地性的研究	第16-17页
2.3.3 对两者综合的研究	第17-18页
2.4 Map Reduce参数调优研究现状	第18-20页
2.4.1 基于经验的参数调优	第18页
2.4.2 基于作业反馈的参数调优	第18-19页
2.4.3 基于成本计算的参数调优	第19页
2.4.4 基于标签的参数调优	第19-20页
2.5 本章小结	第20-21页
第三章 Hadoop平台简介	第21-30页
3.1 Hadoop组织结构	第21-24页
3.1.1 文件系统介绍	第21-22页
3.1.2 计算框架	第22-23页
3.1.3 Hadoop RPC框架	第23-24页
3.2 离线计算框架Map Reduce	第24-28页
3.2.1 数据准备阶段	第25页
3.2.2 Map阶段	第25-26页
3.2.3 Shuffle阶段	第26-27页
3.2.4 Reduce阶段	第27-28页
3.3 Partitioner分区函数接口	第28-29页
3.4 内核调试工具	第29页
3.5 本章小结	第29-30页
第四章 LRP分区算法的设计与实现	第30-40页
4.1 TOP算法介绍	第30-31页
4.2 本地性分区策略	第31-32页
4.3 LRP算法描述	第32-35页
4.3.1 理论证明	第32-34页
4.3.2 算法描述	第34-35页
4.4 实验结果及分析	第35-38页
4.4.1 实验平台	第35-36页
4.4.2 Hot Path测试	第36-37页
4.4.3 Tera Sort测试	第37-38页
4.5 本章小结	第38-40页
第五章 APAC系统的设计与实现	第40-51页
5.1 Hadoop分区函数的配置现状	第40-41页
5.2 APAC系统概述	第41-42页
5.2.1 作业特征的定义	第41-42页
5.2.2 系统结构介绍	第42页
5.3 模式聚类模块	第42-46页
5.3.1 数据收集和标准化处理	第43-44页
5.3.2 作业聚类	第44-45页
5.3.3 分区算法选择	第45-46页
5.4 在线识别模块	第46-48页
5.4.1 作业试运行	第47页
5.4.2 模式识别和参数配置	第47-48页
5.4.3 代价分析	第48页
5.5 实验结果及分析	第48-50页
5.6 本章小结	第50-51页
第六章总结与展望	第51-53页
6.1 全文总结	第51-52页
6.2 工作展望	第52-53页
参考文献	第53-58页
攻读硕士学位期间发表的论文	第58-59页
致谢	第59-60页