Hadoop平台上结构化数据的压缩技术研究与实现

摘要	第4-6页
ABSTRACT	第6页
第一章绪论	第9-16页
1.1 研究背景	第9-10页
1.2 国内外研究现状	第10-14页
1.2.1 大数据平台 Hadoop	第10-11页
1.2.2 数据压缩	第11-12页
1.2.3 列存储与行列混合存储	第12-14页
1.3 研究目的与意义	第14-15页
1.4 本文的组织结构	第15-16页
第二章相关技术研究	第16-24页
2.1 数据压缩	第16-18页
2.1.1 基本概念	第16页
2.1.2 轻量级数据压缩方法	第16-17页
2.1.3 Hadoop 提供的压缩类库	第17-18页
2.2 分布式文件系统 HDFS	第18-21页
2.2.1 HDFS 简介	第18-19页
2.2.2 HDFS 文件读写	第19-21页
2.2.3 HDFS 副本机制	第21页
2.3 MapReduce 计算模型	第21-23页
2.3.1 MapReduce 编程组件	第21-22页
2.3.2 MapReduce 执行流程	第22-23页
2.4 本章小结	第23-24页
第三章基于 HDFS 的行列混合存储结构	第24-35页
3.1 行列混合存储	第24-26页
3.2 HDFS 数据存储	第26-27页
3.2.1 数据的存储	第26页
3.2.2 元数据的存储	第26-27页
3.3 基于 HDFS 的行列混合存储结构的设计	第27-33页
3.3.1 数据页结构的设计	第27-31页
3.3.2 行列混合存储结构的设计	第31-32页
3.3.3 存储结构上的读写操作与复杂度分析	第32-33页
3.4 与其它存储结构的比较	第33-34页
3.5 本章小结	第34-35页
第四章存储结构上压缩与查询的设计与实现	第35-60页
4.1 基于 MapReduce 的数据压缩执行策略	第35-41页
4.1.1 数据压缩执行策略的设计	第35-36页
4.1.2 数据压缩执行策略的实现	第36-40页
4.1.3 压缩策略的选择	第40-41页
4.2 考虑负载均衡的压缩数据优化存储	第41-45页
4.2.1 DataNode 负载计算	第41-42页
4.2.2 HDFS 数据副本优化存储	第42-45页
4.3 查询实现	第45-58页
4.3.1 压缩执行	第45-48页
4.3.2 聚集操作的实现	第48-51页
4.3.3 选择操作的实现	第51-54页
4.3.4 连接操作的实现	第54-56页
4.3.5 基于 MapReduce 的查询实现	第56-58页
4.3.6 相关参数对查询性能的影响	第58页
4.4 本章小结	第58-60页
第五章实验与分析	第60-65页
5.1 实验环境	第60页
5.2 数据集	第60-61页
5.3 实验结果与评价	第61-64页
5.3.1 压缩率分析	第61-62页
5.3.2 存储结构中可变参数对查询性能的影响	第62-64页
5.4 本章小结	第64-65页
第六章总结与展望	第65-67页
6.1 本文研究工作总结	第65-66页
6.2 未来工作展望	第66-67页
参考文献	第67-70页
致谢	第70页