ETL系统在保险行业ODS中的设计和实现
摘要 | 第5-6页 |
ABSTRACT | 第6页 |
第一章 引言 | 第11-16页 |
1.1 背景及问题的提出 | 第11-12页 |
1.1.1 ETL 应用背景 | 第11-12页 |
1.1.2 设计和实现ETL 系统面临的挑战 | 第12页 |
1.2 国内外研究现状 | 第12-13页 |
1.3 研究的目标及其主要的内容 | 第13-14页 |
1.4 本文的组织结构及其章节编排 | 第14-16页 |
第二章 ETL 系统设计模型框架 | 第16-29页 |
2.1 ODS、ETL 和CWM | 第16-19页 |
2.1.1 ODS 系统 | 第16-17页 |
2.1.2 ETL 系统 | 第17-18页 |
2.1.3 CWM | 第18-19页 |
2.2 ETL 系统设计模型框架的提出 | 第19-23页 |
2.2.1 设计思想 | 第19页 |
2.2.2 功能结构 | 第19-22页 |
2.2.3 工作处理流程 | 第22-23页 |
2.3 分布式异构多数据源的数据抽取 | 第23-24页 |
2.4 ETL 处理调度模型 | 第24-26页 |
2.5 ETL 系统中的效能问题 | 第26-28页 |
2.5.1 调度元数据的效能 | 第26-27页 |
2.5.2 多个调度元数据之间的并行性 | 第27-28页 |
2.6 小结 | 第28-29页 |
第三章 ETL 系统中的数据清理 | 第29-43页 |
3.1 数据清理的意义和数据问题分类 | 第29-33页 |
3.1.1 数据清理在ETL 系统中的作用 | 第29-30页 |
3.1.2 数据问题的分类 | 第30-33页 |
3.2 重复数据的处理 | 第33-39页 |
3.2.1 字符匹配方法 | 第34页 |
3.2.2 基本近邻排序算法 | 第34-35页 |
3.2.3 基本排序-等值匹配方法 | 第35-37页 |
3.2.4 客户数据的一致化 | 第37-39页 |
3.3 错误数据的处理 | 第39-41页 |
3.3.1 错误数据的基本算法 | 第39页 |
3.3.2 基于领域知识的错误数据检测 | 第39-41页 |
3.4 小结 | 第41-43页 |
第四章 ETL 数据质量 | 第43-57页 |
4.1 数据质量和影响数据质量问题的原因 | 第43-45页 |
4.1.1 数据质量 | 第43-44页 |
4.1.2 影响数据质量问题的原因 | 第44-45页 |
4.2 数据质量的评估 | 第45-49页 |
4.2.1 数据质量指标的组成 | 第46-47页 |
4.2.2 数据质量评估体系 | 第47-49页 |
4.3 数据质量模型框架组成 | 第49-56页 |
4.3.1 数据质量元模型 | 第49-53页 |
4.3.2 数据质量元模型与其他元模型的关系 | 第53-54页 |
4.3.3 数据质量模型框架实现 | 第54-56页 |
4.4 小结 | 第56-57页 |
第五章 ETL 系统的具体实现 | 第57-73页 |
5.1 ETL 系统设计模型框架的实现 | 第57-63页 |
5.1.1 实现方式选择 | 第57-58页 |
5.1.2 分布式异构数据源的数据抽取 | 第58-59页 |
5.1.3 对抽取文件进行处理形成一致的客户数据 | 第59-63页 |
5.2 客户数据一致化的具体实现 | 第63-64页 |
5.2.1 匹配键和冲突处理业务规则的确立 | 第63页 |
5.2.2 一致化实现过程 | 第63-64页 |
5.3 整个ETL 系统调度处理的实现 | 第64-67页 |
5.3.1 调度技术实现 | 第64-66页 |
5.3.2 调度过程实现 | 第66-67页 |
5.4 数据处理的并行实现 | 第67-68页 |
5.5 ETL 系统验证情况 | 第68-72页 |
5.5.1 ETL 系统实际验证情况 | 第68-70页 |
5.5.2 错误数据清理的实验验证 | 第70-72页 |
5.6 小结 | 第72-73页 |
第六章 总结与展望 | 第73-75页 |
6.1 本文工作回顾 | 第73-74页 |
6.2 成果及意义 | 第74页 |
6.3 存在的问题及进一步的工作 | 第74-75页 |
参考文献 | 第75-77页 |
致谢 | 第77-78页 |
作者攻读学位期间发表的论文 | 第78页 |