中文摘要 | 第1页 |
ABSTRACT | 第4-7页 |
第一章 前言 | 第7-11页 |
·课题来源 | 第7-8页 |
·数据质量 | 第8页 |
·数据清洗的定义 | 第8-10页 |
·数据清洗研究的发展 | 第10页 |
·本文工作 | 第10-11页 |
第二章 数据清洗问题 | 第11-23页 |
·数据质量问题的分类 | 第11-14页 |
·单数据源问题 | 第11-13页 |
·多数据源问题 | 第13-14页 |
·数据清洗过程 | 第14-21页 |
·数据清洗原理 | 第14-15页 |
·数据清洗的实现方式 | 第15-16页 |
·数据清洗的一般步骤 | 第16-17页 |
·数据清洗相关技术概述 | 第17-21页 |
·目前的数据清洗工具 | 第21-22页 |
·特定的清洗工具 | 第21页 |
·ETL 工具 | 第21-22页 |
·小结 | 第22-23页 |
第三章 交互型数据清洗模型 | 第23-30页 |
·简介 | 第23页 |
·系统模型 | 第23-30页 |
·交互模型处理流程和特点 | 第23-26页 |
·清洗规则的描述和执行 | 第26-29页 |
·小结 | 第29-30页 |
第四章 重复记录(Duplicate Records)检测的设计实现 | 第30-46页 |
·字段匹配算法 | 第30-36页 |
·基本字段匹配算法 | 第31页 |
·递归匹配算法 | 第31-32页 |
·基于动态规则的字段匹配的方法 | 第32-35页 |
·一种高效的改进字段匹配算法 | 第35-36页 |
·重复记录检测 | 第36-41页 |
·嵌套循环法 | 第36页 |
·邻近连接法 | 第36-37页 |
·SNM(Sorted Neighborhood Method)算法 | 第37-38页 |
·多趟近邻排序算法(Multi-Pass Sorted-Neighborhood,MPN) | 第38-39页 |
·优先队列算法 | 第39-41页 |
·增量式重复记录识别算法 | 第41-45页 |
·算法描述 | 第41-43页 |
·特征记录的选取 | 第43-44页 |
·性能分析 | 第44-45页 |
·清洗结果的评价标准 | 第45-46页 |
第五章 孤立点(outlier)的检测 | 第46-52页 |
·基于数理统计孤立点检测 | 第46-47页 |
·基于相似系数和的孤立点检测 | 第47-48页 |
·基于关联规则的异常值检测 | 第48-51页 |
·关联规则与异常检测 | 第48页 |
·序列关联规则 | 第48-49页 |
·具体的实现方法 | 第49-50页 |
·性能测试 | 第50-51页 |
·本章小结 | 第51-52页 |
第六章 结束语 | 第52-53页 |
参考文献 | 第53-56页 |
致谢 | 第56-57页 |
附录 | 第57-58页 |
在学期间发表的学术论文和参加科研情况 | 第58页 |