Hadoop平台下的海量小文件处理研究
摘要 | 第4-5页 |
Abstract | 第5页 |
专用术语注释表 | 第8-9页 |
第一章 绪论 | 第9-13页 |
1.1 课题背景 | 第9-11页 |
1.2 课题来源及论文的主要内容 | 第11-12页 |
1.3 论文的组织架构 | 第12-13页 |
第二章 相关背景知识介绍 | 第13-25页 |
2.1 Hadoop集群概述 | 第13-16页 |
2.1.1 Hadoop数据存储 | 第14-15页 |
2.1.2 HDFS文件 | 第15-16页 |
2.1.3 HDFS联盟 | 第16页 |
2.2 内存计算框架 | 第16-18页 |
2.2.1 Spark的架构 | 第17页 |
2.2.2 Spark的编程模型 | 第17-18页 |
2.3 容器技术 | 第18-22页 |
2.3.1 Docker技术介绍 | 第19-20页 |
2.3.2 Docker的优势 | 第20-22页 |
2.4 物理设备上的优化 | 第22-24页 |
2.4.1 固态存储 | 第22页 |
2.4.2 将SSD应用于Ceph集群 | 第22-24页 |
2.5 本章小结 | 第24-25页 |
第三章 基于容器构建Hadoop平台 | 第25-38页 |
3.1 传统的Hadoop平台架构 | 第25-26页 |
3.2 虚拟机与容器的比较 | 第26-27页 |
3.3 Docker的读写性能分析 | 第27-30页 |
3.3.1 读文件时性能比较 | 第28-29页 |
3.3.2 写文件时性能比较 | 第29页 |
3.3.3 文件I/O性能比较 | 第29-30页 |
3.4 在Docker上构建Hadoop | 第30-36页 |
3.4.1 构建Hadoop镜像 | 第31-35页 |
3.4.2 搭建Docker的集群环境 | 第35-36页 |
3.5 本章小结 | 第36-38页 |
第四章 软件层面优化处理 | 第38-49页 |
4.1 方案构架说明 | 第38-41页 |
4.1.1 序列化文件方法 | 第38-39页 |
4.1.2 归档文件方法 | 第39-40页 |
4.1.3 方案分析 | 第40-41页 |
4.2 优化方案设计 | 第41-48页 |
4.2.1 小文件存储优化 | 第42-43页 |
4.2.2 小文件读取优化 | 第43-45页 |
4.2.3 方案逻辑结构 | 第45-48页 |
4.3 本章小结 | 第48-49页 |
第五章 方案性能评估 | 第49-54页 |
5.1 方案架构 | 第49-51页 |
5.1.1 底层环境构建 | 第49-50页 |
5.1.2 软件搭建 | 第50-51页 |
5.2 实验分析 | 第51-52页 |
5.2.1 小文件存储性能的比较 | 第51-52页 |
5.2.2 小文件处理性能的比较 | 第52页 |
5.3 本章小结 | 第52-54页 |
第六章 总结与展望 | 第54-56页 |
6.1 总结 | 第54-55页 |
6.2 展望 | 第55-56页 |
参考文献 | 第56-58页 |
附录1 攻读硕士学位期间撰写的论文 | 第58-59页 |
附录2 攻读硕士学位期间参加的科研项目 | 第59-60页 |
致谢 | 第60页 |