首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于MapReduce作业拆分组合机制的并行ETL组件实现

摘要第4-6页
ABSTRACT第6-7页
第一章 前言第10-18页
    1.1 课题研究背景第10-11页
    1.2 国内外研究现状第11-16页
        1.2.1 以Hive为代表的基于SQL语言的大数据查询工具第11-12页
        1.2.2 从Google的Dremel系统延伸出的实时查询项目第12-14页
        1.2.3 像PIG,Jaql的类脚本ETL处理工具第14-15页
        1.2.4 架构在Hadoop上的Java Api库第15-16页
    1.3 论文研究内容第16-17页
    1.4 论文组织结构第17-18页
第二章 相关技术综述第18-25页
    2.1 流程级MapReduce解决方法第18-23页
        2.1.1 MapReduce编程模型及其开源实现Hadoop第18-20页
        2.1.2 迭代式MapReduce第20-21页
        2.1.3 依赖组合式MapReduce第21-22页
        2.1.4 链式MapReduce第22-23页
    2.2 ETL概述第23-25页
        2.2.1 ·数据的抽取第23页
        2.2.2 数据的清洗转换第23-24页
        2.2.3 数据的装载第24-25页
第三章 改进的链式MapReduce框架第25-33页
    3.1 链式MapReduce的实现原理第25-27页
    3.2 改进链式MapReduce的设计思路第27-29页
    3.3 设计过程中的技术难点第29-33页
第四章 流程级优化规则第33-40页
    4.1 组件流程级优化规则设计第33-35页
    4.2 流程级优化规则的应用与实现第35-37页
    4.3 基于partition key的优化规则第37-40页
第五章 ETL算法优化第40-48页
    5.1 Group by算法优化第40-43页
    5.2 Join算法优化第43-45页
        5.2.1 二次排序第43-44页
        5.2.2 基于二次排序的Join算法第44-45页
    5.3 Group by和Join的组合场景第45-46页
    5.4 数据倾斜问题第46-48页
第六章 ETL工具性能测试及结论第48-57页
    6.1 测试环境第48-49页
    6.2 测试数据第49-51页
        6.2.1 数据源格式第49页
        6.2.2 数据源信息第49-50页
        6.2.3 样例数据第50-51页
    6.3 测试用例及实验结果第51-56页
        6.3.1 Group by算法测试第51-52页
        6.3.2 Join算法测试第52-53页
        6.3.3 ETL流程测试第53-56页
    6.4 测试结果及结论第56-57页
第七章 总结及展望第57-59页
    7.1 全文总结第57页
    7.2 下一步工作第57-59页
参考文献第59-61页
致谢第61-62页
攻读学位期间发表的学术论文目录第62页

论文共62页,点击 下载论文
上一篇:基于地理定位辅助的移动自组网路由协议的研究与实现
下一篇:无线通信系统的随机网络演算分析