Hadoop中小文件处理方法的研究与分析

摘要	第3-5页
Abstract	第5-6页
第一章绪论	第9-15页
1.1 研究背景和意义	第9-11页
1.2 国内外研究现状	第11-13页
1.3 本文主要工作及结构	第13-15页
第二章 Hadoop简介及其核心组件	第15-31页
2.1 Hadoop简介	第15-17页
2.1.1 Hadoop发展历史	第16页
2.1.2 Hadoop优缺点	第16-17页
2.2 分布式文件系统HDFS	第17-25页
2.2.1 设计和目标	第18-19页
2.2.2 体系结构	第19-20页
2.2.3 NameNode	第20-22页
2.2.4 DataNode	第22-24页
2.2.5 数据组织	第24-25页
2.3 分布式计算框架MapReduce	第25-29页
2.3.1 体系结构	第25-27页
2.3.2 开发及数据流	第27-29页
2.4 本章小结	第29-31页
第三章 Hadoop小文件问题及其优化方案	第31-42页
3.1 Hadoop的小文件问题	第31-33页
3.2 小文件处理优化方案	第33-38页
3.2.1 不带索引合并算法	第34-35页
3.2.2 带索引合并算法	第35-38页
3.3 实验及结果分析	第38-41页
3.3.1 不带索引合并算法	第39-40页
3.3.2 带索引合并算法	第40-41页
3.4 本章小结	第41-42页
第四章 Hadoop中小文件处理技术及其优化	第42-53页
4.1 输入格式TextInputFormat	第42-44页
4.2 输入格式CombinedFileInputFormat	第44-46页
4.3 SequenceFile	第46-47页
4.4 Harballing	第47-49页
4.5 PCFIF优化方案	第49-52页
4.5.1 合并算法N-Combiner	第49-50页
4.5.2 读取算法Prefetching-Read	第50-52页
4.5.3 数据分片格式优化	第52页
4.6 本章小结	第52-53页
第五章实验与结果分析	第53-65页
5.1 实验设计思路	第53页
5.2 实验算法和实验步骤	第53-55页
5.3 实验环境	第55-56页
5.4 测试数据集	第56-58页
5.5 实验结果与分析	第58-65页
第六章总结与展望	第65-67页
6.1 总结	第65-66页
6.2 展望	第66-67页
参考文献	第67-71页
致谢	第71-72页
攻读硕士学位期间发表的论文及获得的奖项	第72-73页
导师、作者简介	第73页