首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Spark的大数据清洗框架设计与实现

摘要第4-5页
Abstract第5页
第1章 绪论第12-23页
    1.1 大数据技术背景第12-14页
    1.2 大数据清洗技术存在的问题第14-17页
        1.2.1 从Hadoop升级到Spark第14-16页
        1.2.2 使用Spark大数据清洗问题第16-17页
    1.3 Spark-ETL大数据清洗框架第17-22页
        1.3.1 框架介绍第17页
        1.3.2 清洗框架下的现实问题背景第17-19页
        1.3.3 Spark-ETL原理第19-22页
    1.4 论文结构介绍第22页
    1.5 本章小结第22-23页
第2章 相关技术分析第23-34页
    2.1 Spark Application提交逻辑分析第23-25页
    2.2 Spark交互模式第25-31页
        2.2.1 Spark-Submit模式分析第26-27页
        2.2.2 Spark-Shell模式分析第27-28页
        2.2.3 Spark-JobServer模式分析第28-31页
    2.3 Spark实现ETL功能分析第31-32页
    2.4 本章小结第32-34页
第3章 清洗框架设计第34-47页
    3.1 框架架构设计第34-35页
    3.2 Spark-ETL Server设计第35-39页
        3.2.1 Spark-ETL Web Client设计第36-37页
        3.2.2 Spark-ETL Job Server设计第37-39页
        3.2.3 Spark-ETL Spark SQL设计第39页
    3.3 Spark-ETL SDK设计第39-41页
        3.3.1 Spark-ETL SparkJob接口第40页
        3.3.2 Spark-ETL SharedRDD接口第40-41页
    3.4 Spark-ETL Algorithms设计第41-45页
        3.4.1 大数据清洗单元设计第42-44页
        3.4.2 流水线配置设计第44-45页
    3.5 本章小结第45-47页
第4章 关键技术分析与框架实现第47-57页
    4.1 Server分析与实现第47-50页
        4.1.1 Server基础实现技术介绍第47-48页
        4.1.2 Server消息返回机制第48-50页
    4.2 SDK分析与实现第50-52页
    4.3 Algorithms分析与实现第52-55页
        4.3.1 清洗单元配置与实现第52-54页
        4.3.2 多叉树计算流第54-55页
    4.4 其他问题第55-56页
    4.5 本章小结第56-57页
第5章 实验结果第57-77页
    5.1 项目成果第57-58页
    5.2 功能测试第58-66页
        5.2.1 系统功能实验第58-62页
        5.2.2 Algorithms功能设计实验第62-66页
    5.3 系统性能实验第66-76页
        5.3.1 Spark-ETL框架Job性能实验第66-72页
        5.3.2 Spark-ETL多叉树计算流对清洗效率的影响实验第72-74页
        5.3.3 Spark-ETL与MapReduce性能对比第74-76页
    5.4 本章小结第76-77页
第6章 总结与展望第77-79页
参考文献第79-82页
致谢第82页

论文共82页,点击 下载论文
上一篇:Cloud Foundry中Java应用集合类内存泄漏检测
下一篇:基于图的中文微博灾难事件检测