Hadoop的重复数据清理模型研究与实现

摘要	第1-8页
ABSTRACT	第8-12页
第一章绪论	第12-17页
·课题研究背景	第12-13页
·相关课题国内外研究现状	第13-14页
·主要研究内容与创新点	第14-15页
·本文研究内容和结构	第15-16页
·本章小结	第16-17页
第二章 Hadoop 分布式文件系统	第17-29页
·前提和设计目标	第17-18页
·硬件错误	第17页
·流式数据访问	第17页
·大规模数据集	第17-18页
·简单的一致性模型	第18页
·“移动计算比移动数据更划算”	第18页
·Namenode 和 Datanode	第18-19页
·文件系统的名字空间	第19-20页
·数据复制	第20-23页
·副本存放	第20-21页
·副本选择	第21页
·安全模式	第21-22页
·文件系统元数据的持久化	第22-23页
·通讯协议	第23页
·健壮性	第23-25页
·磁盘数据错误，心跳检测和重新复制	第23页
·集群均衡	第23-24页
·数据完整性	第24页
·元数据磁盘错误	第24-25页
·数据组织	第25-26页
·数据块	第25页
·Staging	第25页
·流水线复制	第25-26页
·可访问性	第26-27页
·DFSShell	第26页
·DFSAdmin	第26-27页
·浏览器接口	第27页
·存储空间回收	第27-28页
·文件的删除和恢复	第27页
·减少副本系数	第27-28页
·本章小结	第28-29页
第三章 Hadoop Map/Reduce 框架介绍	第29-41页
·输入与输出	第30-31页
·Map/Reduce	第31-40页
·核心功能描述	第31-34页
·作业配置	第34页
·任务的执行和环境	第34-36页
·作业的提交与监控	第36-37页
·作业的输入	第37-38页
·作业的输出	第38-39页
·Map/Reduce 其他重要特性	第39-40页
·本章小结	第40-41页
第四章 Hadoop 重复数据清理基础算法和数据预处理	第41-56页
·重复数据清理概述	第41-42页
·记录间相似检测算法	第42-48页
·编辑距离算法	第43-45页
·字符型字段相似度检测	第45页
·布尔型字段和数值型相似度检测	第45-46页
·类Pair-wise 重复记录清理算法	第46-48页
·数据预处理——按关键字段聚类算法	第48-55页
·初步聚类后的数据保存	第49-50页
·确定初步聚类后数据的边界	第50-52页
·数据再聚类	第52-55页
·本章小结	第55-56页
第五章 Hadoop 实现重复数据清理	第56-71页
·实验平台搭建	第56-61页
·运行平台搭建	第56-60页
·开发平台搭建	第60-61页
·Hadoop 完全重复数据清理	第61-64页
·完全重复数据清理Map 类的实现	第62页
·完全重复数据清理Reduce 类的实现	第62-63页
·作业启动类的Hadoop 实现	第63页
·完全重复数据清理后的实验结果	第63-64页
·Hadoop 相似重复数据清理	第64-68页
·相似重复数据清理Map 类的实现	第65页
·相似重复数据清理Reduce 类的实现	第65-67页
·相似重复清理后的实验结果	第67-68页
·Hadoop 性能分析	第68-70页
·本章小结	第70-71页
第六章总结与展望	第71-73页
·工作总结	第71页
·工作展望	第71-73页
参考文献	第73-77页
附录源码	第77-87页
成果目录	第87-88页
致谢	第88页