基于HDFS的小文件处理优化方法研究

摘要	第4-5页
Abstract	第5-6页
1 绪论	第9-19页
1.1 研究背景与意义	第9-11页
1.1.1 大数据的研究背景与意义	第9-10页
1.1.2 海量小文件数据的研究背景与意义	第10-11页
1.2 研究现状	第11-17页
1.2.1 工业界研究现状	第11-15页
1.2.2 学术界研究现状	第15-17页
1.3 论文主要工作与结构安排	第17-18页
1.4 本章小结	第18-19页
2 Hadoop以及文本数据处理技术分析	第19-37页
2.1 Hadoop概述	第19-20页
2.2 分布式文件系统HDFS	第20-28页
2.2.1 HDFS框架结构	第21-24页
2.2.2 HDFS的工作流程	第24-27页
2.2.3 HDFS存储处理海量小文件问题总结分析	第27-28页
2.3 并行编程框架MapReduce	第28-29页
2.4 文本相似性检测方法	第29-33页
2.5 数据处理方法	第33-36页
2.5.1 层次分析法	第33-34页
2.5.2 数据标准化方法	第34-36页
2.6 本章小结	第36-37页
3 基于动态队列的小文件存储优化研究	第37-46页
3.1 动态队列方法研究	第38-42页
3.1.1 关键指标权重计算	第38-40页
3.1.2 系统性能评价分析	第40-41页
3.1.3 文本相似性检测方法	第41-42页
3.2 二级索引目录	第42-43页
3.3 预取缓存策略	第43-45页
3.3.1 预取缓存方案	第43-44页
3.3.2 预取缓存替换方案	第44-45页
3.4 本章小结	第45-46页
4 实验及结果分析	第46-57页
4.1 实验基础环境建立	第46-49页
4.2 动态队列实验验证	第49-53页
4.3 实验结果验证分析	第53-56页
4.4 本章小结	第56-57页
结论	第57-59页
参考文献	第59-63页
攻读学位期间发表的学术论文	第63-64页
致谢	第64-65页