摘要 | 第1-8页 |
ABSTRACT | 第8-9页 |
第一章 绪论 | 第9-17页 |
§1.1 课题背景与意义 | 第9-11页 |
·课题来源 | 第9-10页 |
·数据获取的研究意义 | 第10-11页 |
§1.2 国内外研究现状 | 第11-15页 |
·国外研究现状 | 第11-13页 |
·国内研究现状 | 第13-14页 |
·存在问题 | 第14-15页 |
§1.3 论文研究的主要内容 | 第15页 |
§1.4 论文的组织结构 | 第15-17页 |
第二章 数据源检测方法分析 | 第17-30页 |
§2.1 基于快照差分算法的信息源检测分析 | 第17-23页 |
·快照差分问题的形式化描述 | 第17-18页 |
·多种快照差分算法分析 | 第18-21页 |
·算法比较实验 | 第21-23页 |
·快照差分算法总结 | 第23页 |
§2.2 基于日志的数据源检测分析 | 第23-30页 |
·对Oracle数据库日志的检测分析 | 第24-28页 |
·对SQL Server数据库日志的检测分析 | 第28-30页 |
第三章 数据获取系统的设计 | 第30-38页 |
§3.1 系统的设计思路 | 第30页 |
§3.2 系统结构和功能 | 第30-31页 |
§3.2.1 系统结构 | 第30-31页 |
§3.2.2 系统功能 | 第31页 |
§3.3 重要子模块介绍 | 第31-38页 |
·简单数据转换模块 | 第31-33页 |
·数据源监视模块 | 第33-36页 |
·重复记录检测模块 | 第36-38页 |
第四章 重复记录检测方法 | 第38-52页 |
§4.1 字符串距离度量 | 第38-46页 |
·字符串距离度量算法分析 | 第38-42页 |
·基于条件概率分布的字符串度量算法 | 第42-45页 |
·实验分析 | 第45-46页 |
§4.2 动态聚类算法 | 第46-47页 |
§4.3 基于条件概率分布的重复记录检测算法 | 第47-49页 |
·生成canopies | 第48页 |
·第二次聚类 | 第48页 |
·复杂度计算 | 第48-49页 |
§4.4 实验比较分析 | 第49-51页 |
·数据规模 | 第49-50页 |
·本文算法与Merge/Purge重复记录检测算法比较 | 第50-51页 |
§4.5 重复记录检测算法评价 | 第51-52页 |
第五章 结束语 | 第52-54页 |
§5.1 本文主要工作和贡献 | 第52页 |
§5.2 需要进一步研究的问题 | 第52-54页 |
致谢 | 第54-55页 |
参考文献 | 第55-59页 |
附录 攻读硕士学位期间发表的文章 | 第59页 |