| 摘要 | 第1-8页 |
| ABSTRACT | 第8-9页 |
| 第一章 绪论 | 第9-17页 |
| §1.1 课题背景与意义 | 第9-11页 |
| ·课题来源 | 第9-10页 |
| ·数据获取的研究意义 | 第10-11页 |
| §1.2 国内外研究现状 | 第11-15页 |
| ·国外研究现状 | 第11-13页 |
| ·国内研究现状 | 第13-14页 |
| ·存在问题 | 第14-15页 |
| §1.3 论文研究的主要内容 | 第15页 |
| §1.4 论文的组织结构 | 第15-17页 |
| 第二章 数据源检测方法分析 | 第17-30页 |
| §2.1 基于快照差分算法的信息源检测分析 | 第17-23页 |
| ·快照差分问题的形式化描述 | 第17-18页 |
| ·多种快照差分算法分析 | 第18-21页 |
| ·算法比较实验 | 第21-23页 |
| ·快照差分算法总结 | 第23页 |
| §2.2 基于日志的数据源检测分析 | 第23-30页 |
| ·对Oracle数据库日志的检测分析 | 第24-28页 |
| ·对SQL Server数据库日志的检测分析 | 第28-30页 |
| 第三章 数据获取系统的设计 | 第30-38页 |
| §3.1 系统的设计思路 | 第30页 |
| §3.2 系统结构和功能 | 第30-31页 |
| §3.2.1 系统结构 | 第30-31页 |
| §3.2.2 系统功能 | 第31页 |
| §3.3 重要子模块介绍 | 第31-38页 |
| ·简单数据转换模块 | 第31-33页 |
| ·数据源监视模块 | 第33-36页 |
| ·重复记录检测模块 | 第36-38页 |
| 第四章 重复记录检测方法 | 第38-52页 |
| §4.1 字符串距离度量 | 第38-46页 |
| ·字符串距离度量算法分析 | 第38-42页 |
| ·基于条件概率分布的字符串度量算法 | 第42-45页 |
| ·实验分析 | 第45-46页 |
| §4.2 动态聚类算法 | 第46-47页 |
| §4.3 基于条件概率分布的重复记录检测算法 | 第47-49页 |
| ·生成canopies | 第48页 |
| ·第二次聚类 | 第48页 |
| ·复杂度计算 | 第48-49页 |
| §4.4 实验比较分析 | 第49-51页 |
| ·数据规模 | 第49-50页 |
| ·本文算法与Merge/Purge重复记录检测算法比较 | 第50-51页 |
| §4.5 重复记录检测算法评价 | 第51-52页 |
| 第五章 结束语 | 第52-54页 |
| §5.1 本文主要工作和贡献 | 第52页 |
| §5.2 需要进一步研究的问题 | 第52-54页 |
| 致谢 | 第54-55页 |
| 参考文献 | 第55-59页 |
| 附录 攻读硕士学位期间发表的文章 | 第59页 |