基于大数据平台的查询优化技术研究

摘要	第4-6页
Abstract	第6-7页
第1章绪论	第10-18页
1.1 研究背景及研究意义	第10-11页
1.2 国内外研究现状	第11-15页
1.2.1 多查询优化研究现状	第11-13页
1.2.2 增量计算优化研究现状	第13-15页
1.3 论文研究内容	第15页
1.4 论文的组织结构	第15-18页
第2章相关技术背景	第18-28页
2.1 MapReduce概述	第18-20页
2.1.1 MapReduce模型简介	第18-19页
2.1.2 MapReduce执行流程	第19-20页
2.2 Spark概述	第20-22页
2.2.1 弹性分布式数据集RDD	第21-22页
2.2.2 Spark基本工作流程	第22页
2.3 高级查询工具概述	第22-26页
2.3.1 Hive	第22-24页
2.3.2 Pig	第24-25页
2.3.3 SparkSQL	第25-26页
2.4 本章小结	第26-28页
第3章基于MapReduce的多区域查询优化	第28-36页
3.1 多区域查询优化问题描述	第28页
3.2 基于MapReduce的查询代价模型	第28-29页
3.3 朴素的物化策略	第29-30页
3.4 基于区域聚类的MapReduce物化策略	第30-33页
3.4.1 查询空间划分	第30-31页
3.4.2 查询相似度定义	第31页
3.4.3 基于贪心策略的查询聚类算法	第31-33页
3.4.4 物化视图生成	第33页
3.5 实验	第33-35页
3.5.1 实验环境与数据	第33页
3.5.2 实验结果与分析	第33-35页
3.6 本章小结	第35-36页
第4章基于Spark平台的增量查询优化系统设计与实现	第36-52页
4.1 增量计算问题描述	第36-37页
4.2 基于可合并算子的增量计算复用模型	第37-38页
4.2.1 可合并算子介绍	第37-38页
4.2.2 案例分析	第38页
4.3 系统概述	第38-40页
4.4 增量查询处理流程	第40-41页
4.5 关键步骤设计	第41-48页
4.5.1 缓存元信息定义	第41页
4.5.2 计算匹配	第41-43页
4.5.3 缓存复用代价估算	第43页
4.5.4 增量数据的识别	第43-44页
4.5.5 增量的执行计划生成	第44-46页
4.5.6 增量的Spark	第46页
4.5.7 缓存空间的清理回收	第46-48页
4.6 实验	第48-50页
4.6.1 实验环境与数据	第48-49页
4.6.2 实验结果与分析	第49-50页
4.7 本章小结	第50-52页
结论	第52-54页
参考文献	第54-58页
攻读硕士学位期间获得的科研成果	第58-60页
致谢	第60页