首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Spark的SQL连接优化研究与应用

致谢第5-6页
摘要第6-7页
ABSTRACT第7-8页
1 引言第11-15页
    1.1 研究背景第11-12页
    1.2 研究现状第12-13页
    1.3 论文研究内容第13页
    1.4 论文组织结构第13-15页
2 Spark SQL连接优化的相关理论与技术第15-23页
    2.1 分布式文件系统HDFS第15-16页
    2.2 分布式计算框架Spark第16-17页
    2.3 结构化数据处理模块Spark SQL第17-18页
    2.4 布隆过滤器Bloom Filter第18-19页
    2.5 直方图第19-21页
    2.6 本章小结第21-23页
3 Spark普通大表连接的优化第23-35页
    3.1 问题描述第23-24页
    3.2 CBF Join算法描述第24-26页
    3.3 CBF Join算法实现第26-29页
        3.3.1 位数组生成第26-28页
        3.3.2 过滤与连接第28-29页
    3.4 CBF Join算法分析第29-33页
        3.4.1 实现代价分析第29-32页
        3.4.2 应用场景分析第32-33页
    3.5 本章小结第33-35页
4 针对数据量未知的Spark大表连接优化第35-43页
    4.1 问题描述第35页
    4.2 SBF Join算法描述第35-37页
    4.3 SBF Join算法实现第37-39页
        4.3.1 位数组生成第37-39页
        4.3.2 过滤与连接第39页
    4.4 SBF Join算法分析第39-42页
        4.4.1 实现代价分析第39-41页
        4.4.2 应用场景分析第41-42页
    4.5 本章小结第42-43页
5 针对数据倾斜的Spark大表连接优化第43-53页
    5.1 问题描述第43页
    5.2 Skew Join算法描述第43-46页
    5.3 Skew Join算法实现第46-49页
        5.3.1 倾斜key处理第46-48页
        5.3.2 连接与合并第48-49页
    5.4 Skew Join算法分析第49-52页
        5.4.1 实现代价分析第49-51页
        5.4.2 应用场景分析第51-52页
    5.5 本章小结第52-53页
6 实验验证第53-67页
    6.1 实验方法与目的第53页
    6.2 实验环境第53-54页
    6.3 实验设计与准备第54-55页
    6.4 实验对比分析与应用第55-66页
        6.4.1 Spark与Hadoop对比实验第55-56页
        6.4.2 Spark普通等值连接优化实验与应用第56-60页
        6.4.3 Spark数据量未知等值连接优化实验与应用第60-63页
        6.4.4 Spark数据倾斜等值连接优化实验与应用第63-66页
    6.5 本章小结第66-67页
7 总结与展望第67-71页
    7.1 本文小结第67-68页
    7.2 研究展望第68-71页
参考文献第71-73页
作者简历及攻读硕士/博士学位期间取得的研究成果第73-77页
学位论文数据集第77页

论文共77页,点击 下载论文
上一篇:磁吸附履带式攀爬钢缆机器人的分析与研究
下一篇:利用光纤网络求解典型的NP完全问题