Hadoop小文件存储管理的研究与实现

致谢	第5-6页
摘要	第6-7页
ABSTRACT	第7-8页
1 引言	第12-18页
1.1 研究背景	第12-13页
1.2 研究现状	第13-15页
1.2.1 Hadoop处理小文件的问题	第13页
1.2.2 国内外研究现状	第13-15页
1.3 研究内容与意义	第15-16页
1.4 本文的组织结构	第16-18页
2 相关技术研究	第18-28页
2.1 Hadoop分布式平台	第18-19页
2.2 分布式文件系统HDFS	第19-25页
2.2.1 名称节点NameNode	第20-21页
2.2.2 DataNode和Client	第21-22页
2.2.3 节点间通信协议	第22-23页
2.2.4 HDFS读写流程	第23-25页
2.3 MapReduce编程模型	第25-26页
2.4 Trie索引树	第26-27页
2.5 本章小结	第27-28页
3 小文件处理优化方案的设计	第28-38页
3.1 HAR归档技术	第28-29页
3.2 Hadoop小文件处理性能量化	第29-31页
3.2.1 NameNode内存消耗	第29-30页
3.2.2 小文件访问时间	第30-31页
3.3 小文件存储优化设计	第31-33页
3.3.1 小文件合并策略	第31-32页
3.3.2 存储流程设计	第32-33页
3.4 小文件检索优化设计	第33-34页
3.4.1 多级索引策略	第33页
3.4.2 检索流程设计	第33-34页
3.5 小文件处理优化方案的量化分析	第34-36页
3.5.1 NameNode内存消耗	第35-36页
3.5.2 小文件读写性能	第36页
3.6 本章小结	第36-38页
4 小文件处理优化方案的实现	第38-53页
4.1 小文件合并	第38-42页
4.1.1 小文件定义与检测	第38-39页
4.1.2 小文件合并算法	第39-40页
4.1.3 MapReduce输入分片自定义	第40-42页
4.2 多级索引	第42-50页
4.2.1 全局索引	第42-44页
4.2.2 局部一级索引	第44-48页
4.2.3 局部二级索引	第48-50页
4.3 HDFS节点改进	第50-52页
4.3.1 局部索引的放置	第50-51页
4.3.2 主从节点的修改	第51-52页
4.4 本章小结	第52-53页
5 测试与分析	第53-64页
5.1 Hadoop平台搭建	第53-56页
5.1.1 集群搭建	第53-54页
5.1.2 配置集群参数	第54-56页
5.2 测试设计与准备	第56-57页
5.2.1 测试设计	第56-57页
5.2.2 测试数据	第57页
5.3 对比测试	第57-62页
5.3.1 小文件合并写入测试	第57-58页
5.3.2 节点内存消耗测试	第58-60页
5.3.3 小文件访问性能测试	第60-62页
5.4 测试分析	第62-63页
5.5 本章小结	第63-64页
6 总结与展望	第64-66页
6.1 工作总结	第64-65页
6.2 研究展望	第65-66页
参考文献	第66-69页
作者简历及攻读硕士学位期间取得的研究成果	第69-71页
学位论文数据集	第71页