摘要 | 第6-8页 |
ABSTRACT | 第8-9页 |
1 绪论 | 第13-22页 |
1.1 论文背景与意义 | 第13-14页 |
1.2 国内外研究现状 | 第14-19页 |
1.2.1 SQL解析器的优化 | 第15-16页 |
1.2.2 Vectorized Query Execution | 第16-17页 |
1.2.3 存储格式的改进 | 第17页 |
1.2.4 HDFS RAID优化 | 第17-18页 |
1.2.5 I/O层的优化 | 第18页 |
1.2.6 Reduce计算资源动态分配的研究 | 第18-19页 |
1.3 研究目标和内容 | 第19-20页 |
1.3.1 研究目标 | 第19-20页 |
1.3.2 研究内容 | 第20页 |
1.4 论文结构安排 | 第20-21页 |
1.5 本章总结 | 第21-22页 |
2 相关技术分析 | 第22-31页 |
2.1 HDFS分布式文件系统 | 第22-24页 |
2.1.1 HDFS的基本结构 | 第22-23页 |
2.1.2 HDFS容错机制 | 第23-24页 |
2.2 MapReduce计算框架 | 第24-26页 |
2.2.1 MapReduce Data Flow | 第24-25页 |
2.2.2 MapReduce容错机制 | 第25-26页 |
2.3 二维表数据存储技术 | 第26-27页 |
2.3.1 按行存储 | 第26-27页 |
2.3.2 按列存储 | 第27页 |
2.3.3 混合存储 | 第27页 |
2.4 数据仓库Hive | 第27-30页 |
2.4.1 Hive的基本架构 | 第28-29页 |
2.4.2 Hive的存储结构 | 第29-30页 |
2.5 本章总结 | 第30-31页 |
3 HIVE存储结构的改进方案 | 第31-40页 |
3.1 HIVE存储结构存在的问题 | 第31-32页 |
3.1.1 RecordColumnFile会加载额外的数据到内存里 | 第31页 |
3.1.2 Hive的存储结构没有针对数据分布规律进行压缩 | 第31-32页 |
3.2 改进的存储结构FOSF的总体方案 | 第32-34页 |
3.2.1 FOSF的基本结构 | 第32-34页 |
3.2.2 FOSF的关键技术 | 第34页 |
3.3 基于多级元数据信息的列式索引算法 | 第34-36页 |
3.3.1 mastiff的索引算法的分析 | 第34-36页 |
3.3.2 改进的列式索引算法IndexFilter | 第36页 |
3.4 针对数据分布规律的自适应压缩算法 | 第36-39页 |
3.4.1 针对数据分布规律的基本压缩算法 | 第36-38页 |
3.4.2 自适应决策算法 | 第38-39页 |
3.5 本章总结 | 第39-40页 |
4 FOSF的设计和实现 | 第40-60页 |
4.1 FOSF的列式索引算法INDEFILTER | 第40-45页 |
4.1.1 IndexFilter算法的设计和实现 | 第40-43页 |
4.1.2 实验验证 | 第43-45页 |
4.2 FOSF的针对数据分布规律的自适应压缩算法 | 第45-54页 |
4.2.1 自适应压缩算法的设计和实现 | 第46-48页 |
4.2.2 实验验证 | 第48-54页 |
4.3 FOSF在Hive中的实现 | 第54-59页 |
4.3.1 Hive StorageHandler接口的分析 | 第54-55页 |
4.3.2 FOSF的实现 | 第55-59页 |
4.4 本章总结 | 第59-60页 |
5 FOSF的测试和应用验证 | 第60-83页 |
5.1 TPC-H测试 | 第60-76页 |
5.1.1 测试环境 | 第60-66页 |
5.1.2 压缩比分析 | 第66-68页 |
5.1.3 压缩时间分析 | 第68-70页 |
5.1.4 TPC-H Query分析 | 第70-76页 |
5.1.5 结论 | 第76页 |
5.2 应用验证 | 第76-82页 |
5.2.1 应用概述 | 第76-77页 |
5.2.2 应用效果分析 | 第77-82页 |
5.3 本章总结 | 第82-83页 |
6 总结与展望 | 第83-85页 |
6.1 本文工作总结 | 第83页 |
6.2 下一步工作 | 第83-85页 |
参考文献 | 第85-89页 |
致谢 | 第89-90页 |
攻读学位期间发表的学术论文目录 | 第90页 |