基于Spark的海量数据分析与性能优化

摘要	第5-6页
ABSTRACT	第6页
第一章绪论	第10-14页
1.1 研究背景及意义	第10-11页
1.2 研究内容	第11-12页
1.3 论文结构	第12-14页
第二章大数据平台和Spark计算框架	第14-29页
2.1 Hadoop简介	第14-20页
2.1.1 海量网络流量环境特点及面对的挑战	第14-15页
2.1.2 Hadoop概述	第15-16页
2.1.3 计算模型MapReduce	第16-18页
2.1.4 分布式文件系统HDFS	第18-20页
2.2 Spark计算框架	第20-28页
2.2.1 Spark概述	第20-21页
2.2.2 Spark架构	第21-23页
2.2.3 Spark核心概念	第23-25页
2.2.4 Spark作业执行流程	第25-26页
2.2.5 Shuffle	第26-28页
2.3 Web缓存	第28页
2.4 本章小结	第28-29页
第三章海量网络流量分析	第29-35页
3.1 网络流量采集与解析系统	第29-30页
3.2 数据导入系统	第30页
3.3 网络流量分析	第30-33页
3.3.1 用户访问次数分析	第31页
3.3.2 用户下行流量分析	第31-32页
3.3.3 URL访问次数分析	第32-33页
3.3.4 URL下行流量分析	第33页
3.4 本章小节	第33-35页
第四章海量网络数据分析优化与实现	第35-52页
4.1 算子的选择	第35-39页
4.2 数据本地性	第39-41页
4.3 持久化	第41-47页
4.4 并行度	第47-50页
4.5 本章小结	第50-52页
第五章基于Spark的Join操作的优化与实现	第52-60页
5.1 Join操作	第52-54页
5.2 Join的优化实现和分析	第54-59页
5.3 本章小结	第59-60页
第六章总结与展望	第60-61页
参考文献	第61-63页
致谢	第63-64页
攻读学位期间发表的学术论文目录	第64页