基于Hadoop海量小文件存储技术研究

摘要	第5-6页
ABSTRACT	第6页
第一章绪论	第9-15页
1.1 研究背景及意义	第9-10页
1.2 国内外研究现状	第10-12页
1.3 论文研究内容	第12-13页
1.4 本文主要结构安排	第13-15页
第二章 Hadoop文件系统简介	第15-23页
2.1 引言	第15页
2.2 HDFS体系结构	第15-18页
2.2.1 数据块	第16页
2.2.2 NameNode与Secondary NameNode	第16-17页
2.2.3 DataNode	第17页
2.2.4 HDFS Client	第17-18页
2.3 HDFS写数据	第18-20页
2.3.1 写数据前准备工作	第18页
2.3.2 写数据	第18-20页
2.4 HDFS读数据	第20-21页
2.4.1 读数据前准备工作	第20页
2.4.2 读数据	第20-21页
2.5 HDFS小文件性能分析	第21-22页
2.6 本章小结	第22-23页
第三章基于Apriori算法的文件装箱方法	第23-37页
3.1 Apriori算法简介	第23页
3.2 数据预处理	第23-25页
3.3 提高Apriori算法效率	第25-31页
3.3.1 频繁模式树	第25-29页
3.3.2 散列技术	第29-31页
3.4 小文件装箱	第31-36页
3.5 本章小结	第36-37页
第四章基于均匀分布的小文件二次文件合并算法	第37-50页
4.1 小文件存储结构	第37-38页
4.2 装箱文件存储结构	第38-39页
4.3 基于均匀分布的装箱文件合并	第39-41页
4.4 大文件存储结构	第41-43页
4.5 文件索引机制	第43-47页
4.5.1 一级索引机制	第43-46页
4.5.2 二级索引机制	第46-47页
4.6 实验结果集分析	第47-49页
4.6.1 实验环境	第47-48页
4.6.2 小文件访问时间测试	第48页
4.6.3 NameNode内存开销测试	第48-49页
4.7 本章小结	第49-50页
第五章基于LRFU缓存替换策略的HDFS Client本地缓存设计与实现	第50-60页
5.1 HDFS Client文件数据块元数据本地缓存解决方案架构	第50-51页
5.2 HDFS Client建立本地缓存后文件读取步骤	第51-53页
5.3 HDFS Client缓存模块	第53-56页
5.3.1 LRUF缓存替换策略简介	第53页
5.3.2 HDFS Client本地缓存模块设计	第53-56页
5.4 日志分析模块	第56-57页
5.5 实验结果及分析	第57-59页
5.5.1 实验环境	第57页
5.5.2 NameNode负载测试	第57-58页
5.5.3 缓存命中率测试	第58-59页
5.5.4 小文件访问时间测试	第59页
5.6 本章小结	第59-60页
第六章总结与展望	第60-62页
6.1 总结	第60-61页
6.2 展望	第61-62页
参考文献	第62-67页
致谢	第67-68页
附录 (攻读硕士学位期间发表和录用的学术论文)	第68页