异构数据源集成中清洗策略的研究及应用
第一章 绪论 | 第7-12页 |
1.1 选题背景 | 第7-8页 |
1.2 国内外研究的现况 | 第8-10页 |
1.2.1 异构数据源集成研究现况 | 第8-9页 |
1.2.2 数据清洗研究现况 | 第9-10页 |
1.3 研究的内容及意义 | 第10-11页 |
1.3.1 主要研究内容 | 第10-11页 |
1.3.2 研究的意义 | 第11页 |
1.4 论文的组织 | 第11-12页 |
第二章 数据集成工具框架设计 | 第12-20页 |
2.1 异构数据源集成的过程分析 | 第12-14页 |
2.2 基于元数据的集成工具通用框架设计 | 第14-20页 |
2.2.1 数据集成面临的挑战 | 第14-15页 |
2.2.2 通用框架设计 | 第15-17页 |
2.2.3 通用框架中的元数据设计 | 第17-18页 |
2.2.4 通用框架中的异构数据源集成策略 | 第18页 |
2.2.5 通用框架小结 | 第18-20页 |
第三章 数据清洗策略研究及其软件解决方案 | 第20-32页 |
3.1 数据集成中的数据质量问题 | 第20-22页 |
3.1.1 数据质量概念 | 第20页 |
3.1.2 数据质量问题分析 | 第20-22页 |
3.2 应用域无关的数据清洗策略 | 第22-28页 |
3.2.1 数据清洗功能的实现方式 | 第22-23页 |
3.2.2 基于清洗方式的脏数据分类法 | 第23页 |
3.2.3 应用域无关的数据清洗流程设计 | 第23-25页 |
3.2.4 数据源预清洗 | 第25-26页 |
3.2.5 单记录型脏数据清洗 | 第26-28页 |
3.2.6 多记录型脏数据清洗 | 第28页 |
3.3 清洗规则定制模块设计 | 第28-32页 |
第四章 基于策略模式的缺损数据处理方法 | 第32-39页 |
4.1 缺损数据概述 | 第32-33页 |
4.2 策略类的结构设计 | 第33-34页 |
4.3 策略类的缺损数据处理算法设计与分析 | 第34-38页 |
4.3.1 简单缺损数据处理算法 | 第34-35页 |
4.3.2 KNN缺损数据处理算法 | 第35-36页 |
4.3.3 DTB缺损数据处理算法 | 第36-38页 |
4.4 缺损数据处理小结 | 第38-39页 |
第五章 相似重复记录的对象识别过程 | 第39-48页 |
5.1 相似重复记录概述 | 第39-41页 |
5.2 对象识别过程框架设计 | 第41-42页 |
5.3 词法分析 | 第42-43页 |
5.4 记录特征标记 | 第43-44页 |
5.5 相似对象聚类 | 第44-47页 |
5.5.1 记录相似性分析 | 第44-45页 |
5.5.2 相似对象聚类算法设计 | 第45-47页 |
5.6 对象规约 | 第47页 |
5.7 实践与小结 | 第47-48页 |
第六章 数据清洗在统一客户资料系统中的应用研究 | 第48-58页 |
6.1 统一客户资料系统总体设计 | 第48-49页 |
6.2 客户资料集成中清洗策略实施 | 第49-53页 |
6.3 客户资料清洗实验 | 第53-57页 |
6.3.1 相似重复记录识别实验 | 第53-55页 |
6.3.2 缺损数据处理实验 | 第55-57页 |
6.4 本章小结 | 第57-58页 |
第七章 结束语 | 第58-60页 |
7.1 主要工作总结 | 第58-59页 |
7.2 进一步工作的展望 | 第59-60页 |
参考文献 | 第60-63页 |
致谢 | 第63页 |