首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--电子数字计算机(不连续作用电子计算机)论文--各种电子数字计算机论文

Hadoop的重复数据清理模型研究与实现

摘要第1-8页
ABSTRACT第8-12页
第一章 绪论第12-17页
   ·课题研究背景第12-13页
   ·相关课题国内外研究现状第13-14页
   ·主要研究内容与创新点第14-15页
   ·本文研究内容和结构第15-16页
   ·本章小结第16-17页
第二章 Hadoop 分布式文件系统第17-29页
   ·前提和设计目标第17-18页
     ·硬件错误第17页
     ·流式数据访问第17页
     ·大规模数据集第17-18页
     ·简单的一致性模型第18页
     ·“移动计算比移动数据更划算”第18页
   ·Namenode 和 Datanode第18-19页
   ·文件系统的名字空间第19-20页
   ·数据复制第20-23页
     ·副本存放第20-21页
     ·副本选择第21页
     ·安全模式第21-22页
     ·文件系统元数据的持久化第22-23页
   ·通讯协议第23页
   ·健壮性第23-25页
     ·磁盘数据错误,心跳检测和重新复制第23页
     ·集群均衡第23-24页
     ·数据完整性第24页
     ·元数据磁盘错误第24-25页
   ·数据组织第25-26页
     ·数据块第25页
     ·Staging第25页
     ·流水线复制第25-26页
   ·可访问性第26-27页
     ·DFSShell第26页
     ·DFSAdmin第26-27页
     ·浏览器接口第27页
   ·存储空间回收第27-28页
     ·文件的删除和恢复第27页
     ·减少副本系数第27-28页
   ·本章小结第28-29页
第三章 Hadoop Map/Reduce 框架介绍第29-41页
   ·输入与输出第30-31页
   ·Map/Reduce第31-40页
     ·核心功能描述第31-34页
     ·作业配置第34页
     ·任务的执行和环境第34-36页
     ·作业的提交与监控第36-37页
     ·作业的输入第37-38页
     ·作业的输出第38-39页
     ·Map/Reduce 其他重要特性第39-40页
   ·本章小结第40-41页
第四章 Hadoop 重复数据清理基础算法和数据预处理第41-56页
   ·重复数据清理概述第41-42页
   ·记录间相似检测算法第42-48页
     ·编辑距离算法第43-45页
     ·字符型字段相似度检测第45页
     ·布尔型字段和数值型相似度检测第45-46页
     ·类Pair-wise 重复记录清理算法第46-48页
   ·数据预处理——按关键字段聚类算法第48-55页
     ·初步聚类后的数据保存第49-50页
     ·确定初步聚类后数据的边界第50-52页
     ·数据再聚类第52-55页
   ·本章小结第55-56页
第五章 Hadoop 实现重复数据清理第56-71页
   ·实验平台搭建第56-61页
     ·运行平台搭建第56-60页
     ·开发平台搭建第60-61页
   ·Hadoop 完全重复数据清理第61-64页
     ·完全重复数据清理Map 类的实现第62页
     ·完全重复数据清理Reduce 类的实现第62-63页
     ·作业启动类的Hadoop 实现第63页
     ·完全重复数据清理后的实验结果第63-64页
   ·Hadoop 相似重复数据清理第64-68页
     ·相似重复数据清理Map 类的实现第65页
     ·相似重复数据清理Reduce 类的实现第65-67页
     ·相似重复清理后的实验结果第67-68页
   ·Hadoop 性能分析第68-70页
   ·本章小结第70-71页
第六章 总结与展望第71-73页
   ·工作总结第71页
   ·工作展望第71-73页
参考文献第73-77页
附录源码第77-87页
成果目录第87-88页
致谢第88页

论文共88页,点击 下载论文
上一篇:基于粗糙集的图像分类和检索研究
下一篇:应用于工业实时监控的WSN混合MAC协议研究