机群下基于Greenplum数据库查询能耗估算及提高连接能效策略
摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第1章 绪论 | 第9-23页 |
1.1. 课题研究背景及研究意义 | 第9-12页 |
1.2. 能效计算研究现状 | 第12-20页 |
1.2.1. 单机环境下能效计算的研究 | 第12-16页 |
1.2.2. 机群环境下能效计算的研究 | 第16-20页 |
1.3. 本文主要研究内容 | 第20-21页 |
1.4. 本文组织结构 | 第21-23页 |
第2章 机群环境下数据库查询的介绍 | 第23-28页 |
2.1. Greenplum数据库 | 第23-24页 |
2.2. 机群环境下数据库查询的特点 | 第24-25页 |
2.2.1. 查询表的划分 | 第24页 |
2.2.2. 广播 | 第24-25页 |
2.2.3. 表的重划分 | 第25页 |
2.2.4. 结果汇聚 | 第25页 |
2.3. 机群环境下的瓶颈 | 第25-26页 |
2.3.1. 硬件瓶颈(网络和硬盘) | 第26页 |
2.3.2. 算法瓶颈(广播) | 第26页 |
2.3.3. 数据倾斜 | 第26页 |
2.4. 本章小结 | 第26-28页 |
第3章 机群中硬件的能耗表现 | 第28-34页 |
3.1. 测量能耗的器材 | 第28-29页 |
3.2. 实验中使用的查询表 | 第29页 |
3.3. CPU的能耗表现 | 第29-32页 |
3.4. 硬盘的能耗表现 | 第32-33页 |
3.5. 本章小结 | 第33-34页 |
第4章 机群环境下查询操作的能耗表现 | 第34-42页 |
4.1. 表扫描时间与行数的关系 | 第34-35页 |
4.2. 连接表规模与时间的关系 | 第35-38页 |
4.2.1. Hash join | 第36-37页 |
4.2.2. Nestloop | 第37页 |
4.2.3. Mergejoin | 第37-38页 |
4.3. 广播的时间与广播规模的关系 | 第38-40页 |
4.3.1. 单表广播 | 第39页 |
4.3.2. 多表连接下的广播 | 第39-40页 |
4.4. 结果汇聚操作 | 第40页 |
4.5. 排序操作 | 第40-41页 |
4.6. 本章小结 | 第41-42页 |
第5章 机群环境下数据库查询的能耗估算模型 | 第42-53页 |
5.1. 问题的实际背景和意义 | 第42页 |
5.2. 以往机群环境下的能耗计算方式及其缺陷 | 第42-43页 |
5.3. Greenplum数据库的并发性 | 第43页 |
5.4. 能耗估算模型的构造 | 第43-52页 |
5.4.1. 建立能耗估算模型用到的参数 | 第44-45页 |
5.4.2. 多表连接操作的进一步分析 | 第45-46页 |
5.4.3. 能耗估算流程图 | 第46-47页 |
5.4.4. 能耗估算算法 | 第47-49页 |
5.4.5. 实验测试及结果 | 第49-51页 |
5.4.6. 结果分析 | 第51-52页 |
5.5. 本章小结 | 第52-53页 |
第6章 提升机群环境连接查询能效的策略 | 第53-67页 |
6.1. 最优的连接查询方式 | 第53-57页 |
6.1.1. 连接操作的三种方式 | 第53页 |
6.1.2. 三种连接方式的测试 | 第53-57页 |
6.2. 考虑时间和能耗的连接次序优化策略 | 第57-65页 |
6.2.1. 机群连接次序问题的介绍 | 第57-59页 |
6.2.2. 问题目标的实现 | 第59页 |
6.2.3. 动态规划的缺陷 | 第59-60页 |
6.2.4. 蚁群算法简介 | 第60-63页 |
6.2.5. 问题复杂度分析 | 第63-64页 |
6.2.6. 实验数据 | 第64页 |
6.2.7. 实验结果及分析 | 第64-65页 |
6.3. 本章小结 | 第65-67页 |
结论 | 第67-68页 |
参考文献 | 第68-73页 |
致谢 | 第73页 |