摘要 | 第2-3页 |
Abstract | 第3-4页 |
第一章 引言 | 第8-12页 |
1.1 研究的背景及意义 | 第8页 |
1.2 国内外研究现状与发展趋势 | 第8-10页 |
1.3 本文的主要工作 | 第10-11页 |
1.4 论文的组织 | 第11-12页 |
第二章 相关技术和理论的研究 | 第12-24页 |
2.1 分布式计算技术 | 第12-15页 |
2.1.1 分布式对象技术 | 第12-13页 |
2.1.2 Web Services 技术 | 第13页 |
2.1.3 网格技术 | 第13-14页 |
2.1.4 基于多 Agent 的分布计算技术 | 第14-15页 |
2.2 数据集成技术 | 第15-23页 |
2.2.1 数据集成分法概述 | 第15-17页 |
2.2.2 ETL 过程 | 第17-19页 |
2.2.2.1 ETL 概述 | 第17-18页 |
2.2.2.2 抽取 | 第18页 |
2.2.2.3 转换 | 第18页 |
2.2.2.4 加载 | 第18-19页 |
2.2.3 数据清洗技术 | 第19-23页 |
2.2.3.1 数据质量问题 | 第19-20页 |
2.2.3.1.1 缺失数据 | 第19-20页 |
2.2.3.1.2 孤立点 | 第20页 |
2.2.3.1.3 不一致数据 | 第20页 |
2.2.3.1.4 相似重复记录 | 第20页 |
2.2.3.2 数据清洗方法 | 第20-23页 |
2.2.3.2.1 缺失数据处理 | 第20-21页 |
2.2.3.2.2 孤立点 | 第21页 |
2.2.3.2.3 不一致数据 | 第21页 |
2.2.3.2.4 重复记录 | 第21-23页 |
2.3 ETL 与数据清洗的元数据 | 第23页 |
2.4 本章小结 | 第23-24页 |
第三章 一种 ETL 与数据清洗相结合的分布式数据集成(ETL&DC)工具的设计 | 第24-44页 |
3.1 设计目标 | 第24-25页 |
3.1.1 功能性设计目标 | 第24-25页 |
3.1.1.1 异构数据源抽取和跨平台性 | 第24页 |
3.1.1.2 丰富的 ETL 数据转换功能 | 第24页 |
3.1.1.3 数据质量检测和数据清洗 | 第24-25页 |
3.1.1.4 友好的界面 | 第25页 |
3.1.2 性能方面设计目标 | 第25页 |
3.2 基于环形计算服务器的网络架构设计 | 第25-31页 |
3.2.1 基于环形计算服务器的网络架构模型描述 | 第25-27页 |
3.2.2 协议 PM-环形计算服务器构建和维护 | 第27-29页 |
3.2.3 协议 PC-环形计算服务器网与客户端通信 | 第29-30页 |
3.2.4 环形计算服务器网的优势 | 第30-31页 |
3.3 ETL&DC 工具的体系结构 | 第31-34页 |
3.3.1 整体软件架构 | 第31-34页 |
3.4 主要模块设计 | 第34-41页 |
3.4.1 客户端与计算服务器端及注册中心的通信控制过程(Agent 协作过程) | 第34-36页 |
3.4.2 分布式处理的协同管理 | 第36页 |
3.4.3 ETL 及数据清洗的执行引擎 | 第36-39页 |
3.4.3.1 数据抽取 | 第37页 |
3.4.3.2 数据转换 | 第37-38页 |
3.4.3.3 数据加载 | 第38页 |
3.4.3.4 数据清洗 | 第38-39页 |
3.4.4 多线程流水线设计 | 第39-41页 |
3.5 元数据库设计 | 第41-43页 |
3.6 本章小结 | 第43-44页 |
第四章 ETL&DC 工具的实现 | 第44-62页 |
4.1 系统开发平台和实现技术 | 第44-45页 |
4.1.1 系统底层 Agent 通信平台 | 第44-45页 |
4.2 客户端实现 | 第45-49页 |
4.2.1 图形界面设计实现 | 第45-48页 |
4.2.2 元数据的获取 | 第48-49页 |
4.3 协同管理 | 第49-50页 |
4.4 计算服务端实现 | 第50-57页 |
4.4.1 环形计算服务网的信息维护表 | 第50-51页 |
4.4.2 缓冲区结构实现 | 第51-52页 |
4.4.3 多线程流水线执行 | 第52-53页 |
4.4.4 ETL 与数据清洗执行引擎 | 第53-57页 |
4.4.4.1 数据抽取组件实现 | 第54页 |
4.4.4.2 数据转换组件实现 | 第54-55页 |
4.4.4.3 基于 hsqldb 的规则解析引擎 | 第55-56页 |
4.4.4.4 数据加载组件实现 | 第56-57页 |
4.5 数据清洗 | 第57-61页 |
4.5.1 缺失数据处理 | 第57-58页 |
4.5.1.1 缺失数据处理规则 | 第57页 |
4.5.1.2 缺失数据处理流程 | 第57-58页 |
4.5.2 重复记录消除 | 第58-61页 |
4.5.2.1 相似记录集检索 | 第58页 |
4.5.2.2 相似度计算方法[39,40] | 第58-60页 |
4.5.2.3 相似记录合并策略 | 第60页 |
4.5.2.4 重复记录消除流程 | 第60-61页 |
4.6 本章小结 | 第61-62页 |
第五章 ETL&DC 工具的测试与分析 | 第62-78页 |
5.1 客户端设计界面 | 第62-73页 |
5.1.1 元数据库配置界面 | 第62页 |
5.1.2 用户登录连接协同管理服务器 | 第62-63页 |
5.1.3 数据集成作业的设计界面 | 第63-65页 |
5.1.4 元数据扫描与获取界面 | 第65-66页 |
5.1.5 各个组件节点的属性设置 | 第66-73页 |
5.1.5.1 数据抽取组件 | 第66-67页 |
5.1.5.2 数据转换组件 | 第67-70页 |
5.1.5.3 数据清洗组件 | 第70-72页 |
5.1.5.4 数据加载组件 | 第72-73页 |
5.2 注册控制端的 Agent 监控界面 | 第73页 |
5.3 计服务器端的设计界面 | 第73-74页 |
5.4 系统性能测试 | 第74-77页 |
5.5 本章小结 | 第77-78页 |
结论与展望 | 第78-79页 |
致谢 | 第79-80页 |
参考文献 | 第80-82页 |
个人简历 | 第82-83页 |
在学期间的研究成果及发表的学术论文 | 第83页 |