摘要 | 第4-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第12-18页 |
1.1 研究背景 | 第12-14页 |
1.2 研究现状 | 第14-16页 |
1.2.1 国外研究现状 | 第14-15页 |
1.2.2 国内研究现状 | 第15-16页 |
1.3 研究意义 | 第16页 |
1.4 论文结构安排 | 第16-18页 |
第二章 相关技术 | 第18-27页 |
2.1 Hadoop发展史 | 第18页 |
2.2 分布式存储系统HDFS | 第18-23页 |
2.2.1 HDFS设计前提和目标 | 第19-20页 |
2.2.2 数据块 | 第20页 |
2.2.3 体系结构 | 第20-22页 |
2.2.4 体系结构保障可靠性的组织 | 第22-23页 |
2.3 分布式计算框架MapReduce | 第23-27页 |
第三章 基于MapReduce的小文件处理技术研究与优化 | 第27-41页 |
3.1 Archive | 第27-28页 |
3.2 SequeceFile | 第28-30页 |
3.3 InputFormat体系结构分析 | 第30-33页 |
3.4 CombineFileInputFormat类的研究及其实现 | 第33-41页 |
3.4.1 CombineInputFormat源代码分析 | 第33-37页 |
3.4.2 CombineInputFormat具体实现 | 第37-41页 |
第四章 基于HDFS的小文件处理技术的研究与优化 | 第41-54页 |
4.1 HDFS小文件存储存在的问题 | 第41-42页 |
4.2 原始HDFS读写过程分析 | 第42-44页 |
4.2.1 文件的读取过程分析 | 第42-43页 |
4.2.2 文件的写入过程分析 | 第43-44页 |
4.3 具有独立小文件模块处理的架构设计 | 第44-45页 |
4.3.1 系统设计的初衷和目标 | 第44页 |
4.3.2 系统设计思路 | 第44-45页 |
4.4 整体架构 | 第45-52页 |
4.4.1 系统整体设计 | 第45-46页 |
4.4.2 小文件模块的细化设计 | 第46-52页 |
4.5 关联的小文件合并 | 第52-54页 |
第五章 实验与结果分析 | 第54-59页 |
5.1 Hadoop平台搭建 | 第54-56页 |
5.2 eclipse在Hadoop环境下的配置 | 第56页 |
5.3 CombineFileInputFormat效率测试 | 第56-57页 |
5.4 本文小文件独立模块的测试 | 第57-59页 |
总结与展望 | 第59-60页 |
参考文献 | 第60-63页 |
攻读学位期间发表的学位论文 | 第63-65页 |
致谢 | 第65页 |