基于HDFS的海量小文件处理性能的研究与优化
摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第10-18页 |
1.1 课题背景 | 第10-14页 |
1.1.1 大数据的出现 | 第10-11页 |
1.1.2 云计算与云存储 | 第11-13页 |
1.1.3 Hadoop海量小文件问题 | 第13-14页 |
1.2 研究现状 | 第14-16页 |
1.3 文章的研究内容与意义 | 第16页 |
1.4 文章的组织结构 | 第16-18页 |
第二章 相关技术研究 | 第18-28页 |
2.1 分布式集群Hadoop | 第18-19页 |
2.2 分布式文件系统HDFS | 第19-24页 |
2.2.1 HDFS综述 | 第19-21页 |
2.2.2 节点间通信协议 | 第21-22页 |
2.2.3 HDFS读写流程 | 第22-24页 |
2.3 HBase | 第24-27页 |
2.4 本章小结 | 第27-28页 |
第三章 小文件优化处理方案的设计 | 第28-54页 |
3.1 总体设计 | 第28-29页 |
3.2 小文件优化存储预处理 | 第29-35页 |
3.2.1 HDFS小文件处理量化分析 | 第29-31页 |
3.2.2 小文件的定义与检测 | 第31-32页 |
3.2.3 小文件合并方法 | 第32-35页 |
3.3 小文件合并 | 第35-37页 |
3.4 小文件索引设计 | 第37-39页 |
3.5 缓存设计 | 第39-43页 |
3.5.1 缓存详细设计 | 第40页 |
3.5.2 缓存数据表的容器 | 第40-41页 |
3.5.3 缓存替换算法 | 第41-43页 |
3.6 ARC算法 | 第43-53页 |
3.6.1 ARC算法介绍 | 第43-46页 |
3.6.2 ARC算法的改进依据 | 第46-47页 |
3.6.3 ARC算法改进思路 | 第47-49页 |
3.6.4 改进的实现 | 第49-50页 |
3.6.5 缓存技术的测试与分析 | 第50-53页 |
3.7 本章小结 | 第53-54页 |
第四章 虚拟文件系统的实现 | 第54-70页 |
4.1 系统整体设计 | 第54-56页 |
4.1.1 文件上传流程 | 第54-55页 |
4.1.2 文件读取流程 | 第55-56页 |
4.2 基于CBFS的虚拟文件系统 | 第56-60页 |
4.3 文件安全传输 | 第60-66页 |
4.3.1 用户认证协议 | 第60-62页 |
4.3.2 文件压缩传输 | 第62-66页 |
4.4 网络文件系统NFS | 第66-67页 |
4.5 系统整体实现 | 第67-69页 |
4.6 本章小结 | 第69-70页 |
第五章 测试与分析 | 第70-77页 |
5.1 环境搭建 | 第70-73页 |
5.1.1 集群搭建 | 第70-71页 |
5.1.2 集群参数配置 | 第71-73页 |
5.1.3 网络文件系统配置 | 第73页 |
5.2 系统整体测试与分析 | 第73-76页 |
5.2.1 NameNode内存占用测试 | 第74页 |
5.2.2 文件写入测试 | 第74-75页 |
5.2.3 文件访问性能测试 | 第75-76页 |
5.3 本章小结 | 第76-77页 |
第六章 总结与展望 | 第77-79页 |
6.1 总结 | 第77-78页 |
6.2 展望 | 第78-79页 |
致谢 | 第79-80页 |
参考文献 | 第80-83页 |