相似重复记录的数据清洗技术的研究

摘要	第7-8页
Abstract	第8页
第1章绪论	第12-18页
1.1 研究背景及意义	第12-14页
1.2 国内外研究现状	第14-16页
1.2.1 国外研究现状	第14-15页
1.2.2 国内研究现状	第15-16页
1.3 本文研究内容	第16页
1.4 论文结构	第16-18页
第2章相似重复记录清洗技术综述	第18-33页
2.1 相关概念	第18-26页
2.1.1“脏数据”	第18-19页
2.1.2 相似重复记录	第19-21页
2.1.3 数据清洗概念	第21-24页
2.1.4 数据清洗流程	第24-26页
2.2 相似重复记录的识别	第26-32页
2.2.1 基于排序合并的相似重复记录的辨别	第27-30页
2.2.2 基于聚类的相似重复记录的识别	第30-32页
2.3 本章小结	第32-33页
第3章基于N-Gram算法的相似重复记录检测	第33-42页
3.1 N-Gram算法概述	第33-34页
3.2 数据预处理	第34-36页
3.3 N-Gram算法流程	第36-39页
3.3.1 标记	第36-38页
3.3.2 计算排序	第38-39页
3.4 N值选取	第39-40页
3.5 N-Gram算法的改进	第40页
3.6 本章小结	第40-42页
第4章相似度检测	第42-50页
4.1 字段匹配算法	第42-45页
4.1.1 基本的字段匹配算法	第43-44页
4.1.2 递归的字段匹配算法	第44-45页
4.2 Smith—waterman算法	第45-46页
4.2.1 基本的Smith-waterman算法	第45-46页
4.2.2 改进的Smith—waterman算法	第46页
4.3 编辑距离算法	第46-47页
4.4 基于优先级的数据清洗	第47-49页
4.5 本章小结	第49-50页
第5章系统设计与实现	第50-61页
5.1 系统设计思想	第50-52页
5.2 系统运行平台	第52页
5.3 实验数据分析	第52-53页
5.4 各功能模块分析	第53-54页
5.5 实验结果分析	第54-60页
5.6 本章小结	第60-61页
结论	第61-64页
参考文献	第64-69页
攻读硕士学位期间发表的论文和获得的科研成果	第69-70页
致谢	第70-71页