首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Spark的分布式ETL研究与应用

摘要第5-7页
ABSTRACT第7-8页
第1章 绪论第11-18页
    1.1 研究的背景和意义第11-13页
        1.1.1 研究背景第11-12页
        1.1.2 研究意义第12-13页
    1.2 国内外研究现状第13-16页
        1.2.1 ETL研究概述第13-15页
        1.2.2 Spark概述第15-16页
    1.3 论文的主要研究内容第16页
    1.4 论文的组织结构第16-18页
第2章 相关技术第18-22页
    2.1 ETL过程与分布式ETL第18-19页
        2.1.1 ETL过程第18页
        2.1.2 分布式ETL技术第18-19页
    2.2 Spark简介第19-21页
        2.2.1 Spark集群第19-20页
        2.2.2 Spark数据模型—RDD第20-21页
    2.3 本章小结第21-22页
第3章 基于Spark的分布式ETL研究第22-31页
    3.1 引言第22-23页
    3.2 基于Spark的分布式ETL第23-24页
    3.3 基于Spark的并行转换第24-28页
        3.3.1 基于分区的并行管道处理第26-27页
        3.3.2 分区预聚合处理第27-28页
    3.4 实验与结果分析第28-29页
    3.5 本章小结第29-31页
第4章 基于Spark的性能优化第31-41页
    4.1 性能调优概述第31-33页
    4.2 基于数据倾斜的调优第33-38页
        4.2.1 数据倾斜第33-35页
        4.2.2 针对数据倾斜的调优策略第35-38页
    4.3 实验与结果分析第38-39页
    4.4 本章小结第39-41页
第5章 基于Spark的ETL应用第41-54页
    5.1 应用背景及需求第41-42页
    5.2 数据仓库星型结构的设计第42-47页
        5.2.1 维度表设计第43-46页
        5.2.2 事实表设计第46-47页
    5.3 传统的决策系统架构设计与基于SSIS的ETL实现第47-50页
        5.3.1 传统的决策系统架构设计第47-48页
        5.3.2 基于SSIS的ETL实现第48-50页
    5.4 基于Spark的决策系统架构设计第50-51页
    5.5 ETL实验与结果分析第51-52页
    5.6 比较与分析第52-53页
    5.7 本章小结第53-54页
第6章 总结与展望第54-56页
    6.1 本文总结第54页
    6.2 工作展望第54-56页
参考文献第56-60页
攻读学位期间的研究成果目录第60-61页
致谢第61页

论文共61页,点击 下载论文
上一篇:基于主机日志的入侵检测研究与实现
下一篇:石墨烯基材料的合成及其在储能方面的应用研究