基于Spark的在线聚集查询优化研究

摘要	第4-5页
ABSTRACT	第5页
第1章绪论	第12-20页
1.1 研究背景	第12-14页
1.2 研究现状	第14-16页
1.2.1 云环境下在线聚集中处理倾斜数据研究现状	第14页
1.2.2 云环境下在线聚集中多表连接查询研究现状	第14-15页
1.2.3 云环境下在线聚集中嵌套查询研究现状	第15页
1.2.4 研究现状总结	第15-16页
1.3 研究目标与内容	第16-18页
1.3.1 研究目标	第16页
1.3.2 研究内容	第16-18页
1.4 论文组织结构	第18-20页
第2章单表查询中倾斜数据处理	第20-34页
2.1 倾斜分布对区间估计的影响	第20-21页
2.2 构建分层样本	第21-25页
2.2.1 相关定义	第21-22页
2.2.2 基于QCS构建分层样本	第22页
2.2.3 基于代价模型的QCS选择	第22-24页
2.2.4 算法复杂度分析	第24-25页
2.3 单表查询执行过程	第25-26页
2.4 单表查询区间估计	第26-28页
2.5 算法验证与分析	第28-32页
2.5.1 实验环境和数据集	第28-29页
2.5.2 参数确认	第29-30页
2.5.3 构建分层样本实验	第30-31页
2.5.4 基于分层样本的查询性能实验	第31-32页
2.6 小结	第32-34页
第3章多表连接查询优化	第34-50页
3.1 构建索引	第34-36页
3.1.1 基于最优化模型的索引选择	第34-35页
3.1.2 最优化模型的求解	第35-36页
3.2 Index Ripple Join查询算法	第36-37页
3.3 多表连接优化	第37-44页
3.3.1 多表连接执行计划	第38-43页
3.3.2 Ripple Join区间估计	第43-44页
3.4 算法验证与分析	第44-48页
3.4.1 建立索引实验	第44-45页
3.4.2 Index Ripple Join查询性能实验	第45-47页
3.4.3 多表连接查询实验	第47-48页
3.5 小结	第48-50页
第4章嵌套查询优化	第50-56页
4.1 嵌套查询的实现及优化	第50-51页
4.2 算法验证与分析	第51-54页
4.3 小结	第54-56页
第5章原型系统的设计与实现	第56-66页
5.1 SOLA的设计与实现	第56-62页
5.1.1 Hive简介	第56-58页
5.1.2 Spark简介	第58-59页
5.1.3 SOLA总体设计	第59-60页
5.1.4 SOLA具体实现	第60-62页
5.2 SOLA的部署与测试	第62-65页
5.2.1 系统部署环境	第62-63页
5.2.2 系统测试	第63-65页
5.3 小结	第65-66页
第6章结束语	第66-70页
6.1 论文总结	第66-67页
6.2 展望	第67-70页
致谢	第70-72页
参考文献	第72-76页
作者简历	第76-78页
攻读硕士学位期间相关研究成果	第78页
一、学术论文	第78页
二、参与项目	第78页