基于MapReduce作业拆分组合机制的并行ETL组件实现

摘要	第4-6页
ABSTRACT	第6-7页
第一章前言	第10-18页
1.1 课题研究背景	第10-11页
1.2 国内外研究现状	第11-16页
1.2.1 以Hive为代表的基于SQL语言的大数据查询工具	第11-12页
1.2.2 从Google的Dremel系统延伸出的实时查询项目	第12-14页
1.2.3 像PIG,Jaql的类脚本ETL处理工具	第14-15页
1.2.4 架构在Hadoop上的Java Api库	第15-16页
1.3 论文研究内容	第16-17页
1.4 论文组织结构	第17-18页
第二章相关技术综述	第18-25页
2.1 流程级MapReduce解决方法	第18-23页
2.1.1 MapReduce编程模型及其开源实现Hadoop	第18-20页
2.1.2 迭代式MapReduce	第20-21页
2.1.3 依赖组合式MapReduce	第21-22页
2.1.4 链式MapReduce	第22-23页
2.2 ETL概述	第23-25页
2.2.1 ·数据的抽取	第23页
2.2.2 数据的清洗转换	第23-24页
2.2.3 数据的装载	第24-25页
第三章改进的链式MapReduce框架	第25-33页
3.1 链式MapReduce的实现原理	第25-27页
3.2 改进链式MapReduce的设计思路	第27-29页
3.3 设计过程中的技术难点	第29-33页
第四章流程级优化规则	第33-40页
4.1 组件流程级优化规则设计	第33-35页
4.2 流程级优化规则的应用与实现	第35-37页
4.3 基于partition key的优化规则	第37-40页
第五章 ETL算法优化	第40-48页
5.1 Group by算法优化	第40-43页
5.2 Join算法优化	第43-45页
5.2.1 二次排序	第43-44页
5.2.2 基于二次排序的Join算法	第44-45页
5.3 Group by和Join的组合场景	第45-46页
5.4 数据倾斜问题	第46-48页
第六章 ETL工具性能测试及结论	第48-57页
6.1 测试环境	第48-49页
6.2 测试数据	第49-51页
6.2.1 数据源格式	第49页
6.2.2 数据源信息	第49-50页
6.2.3 样例数据	第50-51页
6.3 测试用例及实验结果	第51-56页
6.3.1 Group by算法测试	第51-52页
6.3.2 Join算法测试	第52-53页
6.3.3 ETL流程测试	第53-56页
6.4 测试结果及结论	第56-57页
第七章总结及展望	第57-59页
7.1 全文总结	第57页
7.2 下一步工作	第57-59页
参考文献	第59-61页
致谢	第61-62页
攻读学位期间发表的学术论文目录	第62页