Hadoop分布式文件系统小文件数据存储性能的优化方法研究

致谢	第5-6页
摘要	第6-7页
ABSTRACT	第7-8页
1 引言	第12-19页
1.1 研究背景	第12-14页
1.2 国内外研究现状	第14-16页
1.2.1 概述	第14页
1.2.2 研究现状	第14-16页
1.2.3 发展趋势	第16页
1.3 研究内容和意义	第16-17页
1.4 论文组织结构	第17-19页
2 相关技术研究	第19-35页
2.1 大数据存储技术	第19-23页
2.1.1 ETL技术	第19-20页
2.1.2 NoSQL技术	第20-22页
2.1.3 大数据分布式文件系统	第22-23页
2.2 大数据存储面临的主要问题及扩展要求	第23-25页
2.2.1 大数据存储和处理面临的问题	第23-24页
2.2.2 大数据存储和处理的扩展要求	第24-25页
2.3 Hadoop架构	第25-29页
2.3.1 HDFS	第25-28页
2.3.2 MapReduce	第28-29页
2.4 HDFS读写流程分析	第29-31页
2.4.1 HDFS读文件过程	第29-30页
2.4.2 HDFS写文件过程	第30-31页
2.5 HDFS现有小文件处理策略	第31-33页
2.5.1 Hadoop Archive文件归档	第31-32页
2.5.2 SequenceFile	第32-33页
2.5.3 MapFile	第33页
2.6 本章小结	第33-35页
3 扩展的Hadoop分布式文件系统(EHDFS)架构	第35-51页
3.1 扩展的Hadoop分布式文件系统(EHDFS)设计思路	第35-36页
3.2 扩展的Hadoop分布式文件系统改进指标分析	第36-37页
3.2.1 Namenode内存消耗	第36页
3.2.2 文件写入效率	第36页
3.2.3 文件读取效率	第36-37页
3.3 扩展的Hadoop分布式文件系统(EHDFS)	第37-40页
3.3.1 文件判别模块	第38-39页
3.3.2 文件处理模块	第39页
3.3.3 文件合并模块	第39页
3.3.4 文件预取和缓存模块	第39-40页
3.3.5 HDFS客户端	第40页
3.4 扩展的Hadoop分布式文件系统(EHDFS)操作过程	第40-44页
3.4.1 写文件	第40-41页
3.4.2 读文件	第41-43页
3.4.3 删除文件	第43-44页
3.5 基于文件类型的小文件合并算法(SFMFT)	第44-46页
3.5.1 算法提出背景	第44-45页
3.5.2 算法设计与实现	第45-46页
3.5.3 算法分析	第46页
3.6 基于文件类型的合并文件元数据多级索引算法(MFMMIFT)	第46-48页
3.6.1 算法提出背景	第46页
3.6.2 算法设计与实现	第46-47页
3.6.3 算法分析	第47-48页
3.7 基于动态频率统计的热存储算法(TSDFS)	第48-49页
3.7.1 算法提出背景	第48页
3.7.2 算法设计与实现	第48-49页
3.7.3 算法分析	第49页
3.8 本章小结	第49-51页
4 性能测试与分析	第51-58页
4.1 Hadoop平台安装	第51页
4.2 实验验证与分析	第51-56页
4.2.1 小文件存储Namenode内存消耗分析	第51-53页
4.2.2 小文件存储文件效率分析	第53-54页
4.2.3 小文件读取文件效率分析	第54-56页
4.3 实验结论分析	第56页
4.4 本章小结	第56-58页
5 结论	第58-60页
5.1 论文总结	第58页
5.2 研究展望	第58-60页
参考文献	第60-63页
作者简历及攻读硕士/博士学位期间取得的研究成果	第63-65页
学位论文数据集	第65页