基于Hadoop的重复数据删除技术研究

摘要	第5-6页
Abstract	第6页
第1章绪论	第9-12页
1.1 课题背景及意义	第9-10页
1.2 国内外研究现状	第10-11页
1.3 本文主要工作	第11页
1.4 本文组织结构	第11-12页
第2章重复数据删除技术概述	第12-19页
2.1 重复数据删除技术	第12页
2.2 文件级别的重复数据删除	第12-13页
2.3 数据块级别的重复数据删除	第13-15页
2.3.1 固定长度的分块	第13页
2.3.2 基于内容的分块	第13-15页
2.3.3 基于滑块的分块	第15页
2.4 重复数据删除技术在分布式系统中的应用	第15-17页
2.4.1 HYDRAstor	第16页
2.4.2 DEBAR	第16-17页
2.5 研究点和发展方向	第17-18页
2.5.1 去重率和吞吐量的权衡	第18页
2.5.2 去重技术的安全性	第18页
2.5.3 去重技术与云计算的结合	第18页
2.6 本章小结	第18-19页
第3章基于内容的分块方法研究	第19-29页
3.1 DRabin算法	第19-21页
3.2 基于TTTD的改进算法TDOB	第21-25页
3.2.1 TTTD算法	第22页
3.2.2 TDOB算法	第22-25页
3.3 CubeHash算法	第25-28页
3.3.1 CubeHash算法流程	第26-27页
3.3.2 迭代函数f_C	第27页
3.3.3 CubeHash算法性能分析	第27-28页
3.4 本章小结	第28-29页
第4章重复数据删除技术在Hadoop平台中的应用研究	第29-44页
4.1 Hadoop关键技术研究	第29-34页
4.1.1 Hadoop技术背景	第29-30页
4.1.2 分布式文件系统HDFS	第30-33页
4.1.3 MapReduce编程模型	第33-34页
4.1.4 Hadoop数据库HBase	第34页
4.2 重复数据删除技术在Hadoop平台中的应用研究	第34-43页
4.2.1 系统架构	第34-38页
4.2.2 文件的存取操作	第38-40页
4.2.3 存取性能优化	第40-43页
4.3 本章小结	第43-44页
第5章数值实验	第44-53页
5.1 实验环境	第44-48页
5.1.1 硬件描述	第44页
5.1.2 软件描述	第44页
5.1.3 Hadoop平台搭建	第44-48页
5.2 实验过程及结果分析	第48-52页
5.2.1 数据集	第48-49页
5.2.2 DRabin算法的正确性和高效性分析	第49-50页
5.2.3 TDOB算法的性能分析	第50-52页
5.3 本章小结	第52-53页
第6章总结与展望	第53-55页
6.1 全文总结	第53页
6.2 未来展望	第53-55页
参考文献	第55-59页
致谢	第59页