基于HDFS的海量小文件存储策略的研究

摘要	第4-5页
Abstract	第5-6页
第1章绪论	第10-18页
1.1 研究背景及意义	第10-12页
1.2 国内外研究现状	第12-14页
1.2.1 学术界相关研究	第12-13页
1.2.2 工业界相关研究	第13页
1.2.3 Hadoop自身相关研究	第13-14页
1.3 研究现状分析	第14页
1.4 论文的主要工作	第14-15页
1.5 文章组织结构	第15-18页
第2章相关技术研究	第18-30页
2.1 HDFS分布式文件系统的概述	第18-21页
2.1.1 HDFS分布式存储平台组件	第18页
2.1.2 HDFS存储架构及原理概述	第18-19页
2.1.3 HDFS读取文件流程分析	第19-20页
2.1.4 HDFS写入文件流程分析	第20-21页
2.2 Hadoop元数据管理机制的研究	第21-23页
2.2.1 元数据概述	第21-22页
2.2.2 元数据备份	第22-23页
2.3 HDFS典型小文件存储技术	第23-27页
2.3.1 SequenceFile解决方案分析	第23-25页
2.3.2 Federation处理方式分析	第25-26页
2.3.3 HAR小文件处理技术分析	第26-27页
2.4 MYSQL Memory数据存储引擎	第27-29页
2.5 本章小结	第29-30页
第3章海量小文件上传策略的研究	第30-42页
3.1 元数据在NameNode中内存损耗分析	第30-31页
3.2 小文件上传处理模块的研究	第31-33页
3.2.1 小文件上传处理模块的设计	第32页
3.2.2 算法设计中用的符号说明	第32-33页
3.3 文件大小判定单元	第33-34页
3.3.1 小文件的定义	第33页
3.3.2 判定单元算法描述	第33-34页
3.4 文件处理单元	第34-37页
3.4.1 基于文件属性信息的小文件分类	第35页
3.4.2 基于文本相似性小文件分类	第35-37页
3.5 文件合并单元	第37-39页
3.5.1 文件合并算法说明和规则	第37-38页
3.5.2 文件合并算法描述	第38-39页
3.6 文件追加单元	第39-40页
3.7 本章小结	第40-42页
第4章海量小文件读取策略的研究	第42-52页
4.1 HDFS读取文件时间分析	第42-44页
4.2 小文件读取流程设计	第44-45页
4.2.1 小文件读取方法的设计	第44页
4.2.2 小文件读取过程的描述	第44-45页
4.3 小文件索引表的设计	第45-47页
4.3.1 索引表的结构	第45-46页
4.3.2 索引字段的介绍	第46页
4.3.3 通过索引表访问文件流程	第46-47页
4.4 缓存模块	第47-50页
4.4.1 缓存结构设计	第47-49页
4.4.2 缓存置换策略	第49-50页
4.5 预取机制	第50页
4.6 文件读取	第50-51页
4.7 本章小结	第51-52页
第5章实验测试与结果分析	第52-60页
5.1 实验环境的部署及相关说明	第52-54页
5.1.1 Hadoop实验环境说明	第52-53页
5.1.2 Hadoop集群搭建过程简介	第53-54页
5.2 小文件处理模块实验测试与分析	第54-59页
5.2.1 测试文件大小分布	第54-55页
5.2.2 文件上传对比实验	第55-56页
5.2.3 主节点内存损耗对比	第56-57页
5.2.4 文件读取效率对比	第57-59页
5.3 本章小结	第59-60页
结论	第60-62页
参考文献	第62-66页
攻读硕士学位期间发表的学术论文	第66-68页
致谢	第68页