首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Spark系统的查询分析及优化研究

致谢第5-6页
摘要第6-7页
ABSTRACT第7-8页
1 引言第12-18页
    1.1 研究背景第12-13页
    1.2 研究现状第13-15页
        1.2.1 Spark SQL国内外研究现状第13-14页
        1.2.2 Spark Join国内外研究现状第14-15页
    1.3 研究内容与意义第15-17页
    1.4 本文组织结构第17页
    1.5 本章小结第17-18页
2 相关技术简介第18-30页
    2.1 SQL查询优化概念和技术第18页
    2.2 分布式文件系统HDFS第18-21页
        2.2.1 HDFS系统架构第19-20页
        2.2.2 HDFS关键问题第20-21页
    2.3 Spark计算框架第21-24页
        2.3.1 弹性分布式数据集RDD第22-23页
        2.3.2 Spark生态系统第23-24页
    2.4 Spark SQL第24-28页
        2.4.1 分布式数据集DataFrame第24-26页
        2.4.2 优化器Catalyst第26-27页
        2.4.3 Spark Join分析第27-28页
    2.5 Partial Bloom Filter数据结构第28-29页
    2.6 本章小节第29-30页
3 优化器Catalyst的深入研究第30-49页
    3.1 Catalyst数据类型第30-32页
    3.2 Catalyst数据操作第32-33页
    3.3 Catalyst优化流程第33-37页
        3.3.1 Analysis阶段第34页
        3.3.2 Logical Optimization阶段第34-35页
        3.3.3 Physical Planning阶段第35-36页
        3.3.4 Code Generation阶段第36-37页
    3.4 实验平台上进行的查询优化实验及实验分析第37-48页
        3.4.1 常用的操作第37-40页
        3.4.2 不同数据源的操作第40-42页
        3.4.3 不同查询的实验操作第42-45页
        3.4.4 查询的优化操作第45-48页
    3.5 本章小节第48-49页
4 基于Partial Bloom Filter的Spark大表间关联优化第49-60页
    4.1 Spark SQL 中的Join操作第49-50页
    4.2 PBF Join算法描述第50-52页
    4.3 PBF Join算法实现第52-55页
        4.3.1 位数组生成第52-55页
        4.3.2 过滤与连接第55页
    4.4 PBF Join算法理论分析第55-59页
        4.4.1 实现代价分析第55-58页
        4.4.2 应用场景分析第58-59页
    4.5 本章小节第59-60页
5 实验测试与分析第60-70页
    5.1 实验环境第60-63页
        5.1.1 Hadoop平台搭建第60-63页
        5.1.2 Spark平台搭建第63页
    5.2 测试设计与准备第63-64页
        5.2.1 实验设计第63页
        5.2.2 测试数据第63-64页
    5.3 对比测试及分析第64-69页
        5.3.1 等值连接测试第64-68页
        5.3.2 计算框架测试第68-69页
    5.4 本章小节第69-70页
6 总结与展望第70-72页
    6.1 工作总结第70-71页
    6.2 研究展望第71-72页
参考文献第72-74页
作者简历及攻读硕士学位期间取得的研究成果第74-76页
学位论文数据集第76页

论文共76页,点击 下载论文
上一篇:喷墨打印钙钛矿太阳能电池的应用研究
下一篇:差分隐私合成数据研究