首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Hadoop分布式平台的重复数据删除技术研究

摘要第4-5页
Abstract第5-6页
第一章 绪论第13-23页
    1.1 研究背景第13-15页
        1.1.1 大数据处理基本概念第13-14页
        1.1.2 重复数据删除技术概述第14页
        1.1.3 分布式环境下面临的挑战第14-15页
    1.2 研究现状及存在问题第15-20页
        1.2.1 去重率的研究第15-17页
        1.2.2 去重性能的研究第17-19页
        1.2.3 去重技术与大数据的结合第19页
        1.2.4 去重技术的潜在隐患第19-20页
    1.3 研究的意义及贡献第20-21页
    1.4 论文结构安排第21-22页
    1.5 小结第22-23页
第二章 重复数据删除和Hadoop相关研究第23-51页
    2.1 重复数据删除的关键技术第23-29页
        2.1.1 文件级别的重复数据删除第24-25页
        2.1.2 基于FSP的固定分块第25-26页
        2.1.3 基于CDC的可变分块第26-27页
        2.1.4 去重处理方式相关介绍第27-29页
    2.2 Hadoop技术背景第29-35页
        2.2.1 大数据与云计算第29-31页
        2.2.2 Google云计算第31-35页
    2.3 Hadoop关键技术第35-49页
        2.3.1 分布式文件系统HDFS第36-40页
        2.3.2 MapReduce计算模型第40-44页
        2.3.3 NoSQL数据库HBase第44-49页
    2.4 小结第49-51页
第三章 基于Hadoop分布式平台的重复数据删除机制第51-69页
    3.1 引言第51页
    3.2 Keccak指纹生成算法设计与实现第51-58页
        3.2.1 Keccak的确定第51-53页
        3.2.2 Keccak指纹算法流程第53-56页
        3.2.3 实验结果和分析第56-58页
    3.3 PHAF输入文件处理第58-61页
        3.3.1 小文件问题及PHAF的提出第58-60页
        3.3.2 实验结果和分析第60-61页
    3.4 Hadoop分布式平台去重设计第61-67页
        3.4.1 Hadoop分布式平台去重总体设计第62-63页
        3.4.2 分布式指纹库设计第63-64页
        3.4.3 Hadoop分布式平台去重详细流程和算法第64-66页
        3.4.4 文件访问流程第66-67页
    3.5 小结第67-69页
第四章 实验测试和结果分析第69-81页
    4.1 实验环境第69-77页
        4.1.1 硬件参数第69-71页
        4.1.2 软件参数第71页
        4.1.3 实验平台搭建第71-77页
    4.2 数据集第77页
    4.3 实验过程及结果分析第77-80页
    4.4 小结第80-81页
第五章 总结与展望第81-83页
    5.1 总结第81-82页
    5.2 展望第82-83页
参考文献第83-87页
攻读硕士学位期间发表论文及科研情况第87-89页
致谢第89页

论文共89页,点击 下载论文
上一篇:基于Redis的RDF数据存储及性能分析
下一篇:融合跨域城市数据的通勤私家车动态拼车推荐方法研究