MapReduce计算模型下数据倾斜处理方法的研究

摘要	第4-6页
ABSTRACT	第6-7页
1 绪论	第10-15页
1.1 论文研究背景	第10-11页
1.2 研究问题的提出	第11-13页
1.3 本文贡献	第13页
1.4 本文结构	第13-15页
2 相关技术	第15-29页
2.1 数据密集型计算系统	第15-19页
2.1.1 数据密集型计算特点	第15-16页
2.1.2 数据密集型计算处理模式	第16-17页
2.1.3 数据密集型计算模型	第17-19页
2.2 云计算	第19-22页
2.2.1 云计算定义	第19-20页
2.2.2 云计算平台	第20-22页
2.2.3 云计算环境下的数据密集型计算	第22页
2.3 MAPREDUCE计算模型	第22-24页
2.3.1 MapReduce数据密集型计算模型	第22-24页
2.3.2 GFS分布式文件系统	第24页
2.4 APACHE HADOOP平台	第24-29页
2.4.1 Hadoop MapReduce	第25-26页
2.4.2 Hadoop分布式文件系统	第26-29页
3 基于HASH虚拟平衡重分区的数据倾斜处理	第29-42页
3.1 研究背景	第29-30页
3.2 REDUCE阶段的数据倾斜	第30-33页
3.2.1 数据倾斜的原因	第30-31页
3.2.2 解决方案	第31-33页
3.3 基于HASH虚拟重分区的数据倾斜处理算法HVBR-SH	第33-37页
3.3.1 Map阶段Hash虚拟分区	第33-34页
3.3.2 Reduce阶段获取全局Map输出信息	第34-35页
3.3.3 连续虚拟分区平衡重组合	第35-37页
3.4 性能测试	第37-42页
3.4.1 平衡结果对比	第38-40页
3.4.2 平衡效率对比	第40-42页
4 MAPREDUCE数据连接中数据倾斜的处理	第42-56页
4.1 研究背景	第42-43页
4.2 相关工作	第43页
4.3 基于预散列和索引的MAPREDUCE数据连接处理机制	第43-51页
4.3.1 索引生成	第44-45页
4.3.2 连接优化	第45-46页
4.3.3 数据连接	第46-50页
4.3.4 非数据连接处理	第50-51页
4.4 性能评价	第51-56页
4.4.1 实验环境	第51页
4.4.2 实验结果	第51-56页
5 总结与展望	第56-57页
参考文献	第57-60页
个人简历	第60-61页
研究成果	第61-62页
致谢	第62页