大数据环境下聚合查询优化技术的研究与实现

摘要	第10-12页
ABSTRACT	第12-13页
第一章引言	第14-24页
1.1 研究背景	第14-15页
1.1.1 聚合查询的概念及分类	第14页
1.1.2 聚合查询的特点	第14-15页
1.2 研究问题	第15-17页
1.2.1 大规模离线近似聚合查询的快速性和准确性问题	第15-16页
1.2.2 在线的实时聚合查询的快速性和可靠性问题	第16页
1.2.3 Straggler导致聚合查询作业延迟问题	第16-17页
1.3 研究现状	第17-21页
1.3.1 大规模离线近似聚合查询技术的研究现状	第17-18页
1.3.2 在线的实时聚合查询的研究现状	第18-19页
1.3.3 Straggler消除技术的研究现状	第19-21页
1.4 研究内容与成果	第21-22页
1.5 论文框架	第22-24页
第二章基于采样的大数据近似离线聚合查询方法	第24-40页
2.1 概述	第24-26页
2.2 聚合查询的符号化描述	第26-28页
2.3 IBML的实现架构	第28-29页
2.4 误差约束的数据采样	第29-31页
2.4.1 选择合适样本容量的理论依据	第30页
2.4.2 获取数据集的上界和下界	第30-31页
2.5 增量式样本扩容	第31-35页
2.5.1 确定bootstrap trials的个数	第32页
2.5.2 增量式的样本扩容	第32-35页
2.6 实验性能验证	第35-39页
2.6.1 实验配置	第35页
2.6.2 样本容量对聚合查询结果误差的影响	第35页
2.6.3 确定Bootstrap trials的数量	第35-36页
2.6.4 IBML的性能测试	第36-39页
2.6.5 验证IBML满足用户定义的误差范围	第39页
2.7 本章小结	第39-40页
第三章基于索引的大数据在线实时聚合查询优化方法与实现	第40-55页
3.1 概述	第40-42页
3.2 IndexStream的设计	第42-47页
3.2.1 基于Hash Table的索引结构的缺点	第42-43页
3.2.2 IndexStream的设计思路	第43-44页
3.2.3 树型索引结构的建立	第44-45页
3.2.4 Partition内部结构的详细介绍	第45-47页
3.3 高效的并行数据获取管道	第47-49页
3.3.1 最大并行化数据获取管道	第47-49页
3.3.2 可靠的数据获取过程	第49页
3.4 在线实时聚合查询平台的实现	第49-51页
3.5 实验性能验证	第51-54页
3.5.1 IndexStream的性能测试	第51-53页
3.5.2 数据获取管道的性能检测	第53-54页
3.6 本章小结	第54-55页
第四章大数据聚合查询任务中Straggler的缓解方法	第55-66页
4.1 概述	第55-56页
4.2 Straggler的风险预测模型	第56-58页
4.2.1 Dolly的风险预测模型	第56-57页
4.2.2 Hummer的Straggler风险预测模型	第57-58页
4.3 Hummer的设计及实现	第58-61页
4.3.1 任务落伍风险的动态更新	第58-59页
4.3.2 确定聚合查询作业中需要克隆的任务数量	第59-60页
4.3.3 Hummer的架构	第60-61页
4.4 实验性能验证	第61-64页
4.4.1 作业平均完成时间的比较	第61-63页
4.4.2 Hummer的集群资源消耗	第63-64页
4.4.3 Hummer的作业延迟风险及每个任务需要启动的副本数	第64页
4.5 本章小结	第64-66页
第五章总结与展望	第66-69页
5.1 工作总结与主要贡献	第66-67页
5.2 研究展望	第67-69页
致谢	第69-70页
参考文献	第70-76页
作者在学期间取得的学术成果	第76-77页
附录A 作者在学期间的获奖情况	第77页