首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

多数据源环境下重复记录检测问题的研究

摘要第1-5页
ABSTRACT第5-8页
第1章 绪论第8-17页
   ·课题背景及研究的目的和意义第8-9页
   ·重复记录检测问题简介第9-12页
     ·重复记录检测方法第10-11页
     ·重复记录检测评价第11-12页
   ·国内外研究现状第12-14页
     ·重复记录检测方法研究现状第13-14页
     ·重复记录检测评价研究现状第14页
   ·本文的主要研究工作第14-15页
   ·本文的结构第15-17页
第2章 属性和记录的相似度度量的理论基础第17-23页
   ·引言第17页
   ·本文所研究的数据类型第17-18页
   ·属性相似度度量第18-19页
     ·编辑距离第18页
     ·属性相似度第18-19页
   ·记录相似度度量第19-22页
     ·二分图匹配第19-20页
     ·记录相似度第20-22页
   ·本章小结第22-23页
第3章 基于二分图匹配的重复记录检测算法第23-36页
   ·引言第23页
   ·研究目的第23-24页
   ·问题定义第24页
   ·朴素的重复记录检测算法第24-28页
     ·算法描述第25-27页
     ·算法正确性及性能分析第27-28页
   ·基于快速划分的算法优化第28-29页
   ·基于关键属性的算法优化第29-32页
     ·优化策略的基本思想第29-30页
     ·属性权值学习算法第30-32页
   ·实验结果及分析第32-35页
     ·实验配置第32页
     ·记录相似度计算实验结果及其分析第32-33页
     ·原始记录集合R 重复记录检测实验分析第33-34页
     ·基于关键属性优化的算法实验第34-35页
   ·本章小结第35-36页
第4章 基于相似度估计的重复记录检测算法第36-53页
   ·引言第36页
   ·研究目的及意义第36-37页
   ·问题定义与算法基本思想第37-39页
     ·问题定义第37页
     ·算法基本框架第37-39页
   ·算法理论基础及基本假设第39-40页
   ·相似度范围估计方法第40-49页
     ·面向简单的属性和记录估计方法第40-41页
     ·相似度估计的准备工作及相关结论第41-42页
     ·属性相似度范围的估计第42-44页
     ·估计记录的相似度范围第44-45页
     ·算法描述第45-49页
   ·算法实验第49-52页
     ·实验配置第49页
     ·相似度上下界约束对算法效率的影响第49-50页
     ·数据集合大小对算法性能的影响第50-51页
     ·真实数据集合上的算法实验第51-52页
   ·本章小结第52-53页
结论第53-54页
参考文献第54-57页
攻读硕士学位期间发表的论文及其它成果第57-59页
致谢第59页

论文共59页,点击 下载论文
上一篇:基于二维地图的任务规划及态势显示软件开发
下一篇:标签劣质的XML数据上的查询处理