基于Spark的数据实时分析处理系统的设计与实现

摘要	第5-6页
abstract	第6-7页
第一章绪论	第11-19页
1.1 研究背景与意义	第11-12页
1.2 国内外研究现状	第12-14页
1.3 研究的目的与意义	第14-16页
1.4 主要工作与研究	第16-17页
1.5 本文内容的组织结构	第17-19页
第二章相关知识背景与技术介绍	第19-34页
2.1 分布式计算	第19页
2.2 Spark大数据计算框架	第19-29页
2.2.1 RDD弹性伸缩分布式数据集	第21-24页
2.2.2 Spark集群模型	第24-25页
2.2.3 Spark任务调度	第25-26页
2.2.4 Spark生态系统介绍	第26-29页
2.3 数据存储层技术	第29-30页
2.3.1 分布式文件系统HDFS	第29页
2.3.2 基于内存的分布式存储系统Alluxio	第29-30页
2.4 Docker容器技术概述	第30-31页
2.5 Kubernetes容器编排技术概述	第31-33页
2.5.1 Kubernetes主要组件	第31-32页
2.5.2 Kubernetes总体架构	第32-33页
2.6 本章小节	第33-34页
第三章系统平台架构的分析与设计	第34-41页
3.1 系统需求分析和设计目标	第34-35页
3.1.1 功能性需求	第34页
3.1.2 非功能性需求	第34-35页
3.2 系统数据处理框架分析	第35-39页
3.2.1 MapReduce计算模型	第36-37页
3.2.2 Spark中改进mapReduce的地方	第37-39页
3.3 实时数据处理系统平台整体架构设计与实现	第39-40页
3.4 本章小结	第40-41页
第四章新型ETL模块的分析与实现	第41-57页
4.1 模块总体设计与功能分析	第41-45页
4.1.1 传统ETL面临的问题	第41-42页
4.1.2 新型ETL模块的功能和特点	第42-43页
4.1.3 模块结构与工作原理	第43-45页
4.2 数据收发子模块设计与实现	第45-52页
4.2.1 Kafka	第45-47页
4.2.2 数据采集层	第47-50页
4.2.3 数据输出层	第50-52页
4.3 转换子模块的设计与实现	第52-56页
4.3.1 数据格式转换	第52-53页
4.3.2 数据去重和字段融合	第53-54页
4.3.3 数据源融合	第54-56页
4.4 本章小结	第56-57页
第五章实时处理模块的分析与实现	第57-73页
5.1 模块总体设计与功能分析	第57-59页
5.1.1 实时处理模块的功能和特点	第57-58页
5.1.2 模块结构与工作原理	第58-59页
5.2 实时处理模块的分析与实现	第59-68页
5.2.1 DataFrame结构化数据	第59-61页
5.2.2 实时流转换无限表模型	第61页
5.2.3 实时流处理方法	第61-63页
5.2.4 滑动窗口实时流处理方法	第63-67页
5.2.5 实时决策	第67-68页
5.3 系统优化	第68-72页
5.3.1 数据倾斜	第68-71页
5.3.2 Spark与Redis结合	第71-72页
5.4 本章小结	第72-73页
第六章系统实验与应用	第73-83页
6.1 实验平台和参数配置	第73-75页
6.2 测试数据源	第75-76页
6.3 实验测试	第76-80页
6.3.1 功能测试	第76-79页
6.3.2 性能测试	第79-80页
6.4 基于Spark的实时广告点击预测应用	第80-82页
6.5 实验总结	第82-83页
第七章全文工作总结与展望	第83-85页
7.1 工作总结	第83-84页
7.2 展望	第84-85页
致谢	第85-86页
参考文献	第86-90页
攻读硕士学位期间取得的成果	第90页