首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

不确定数据的重复检测及清洗研究

摘要第1-5页
ABSTRACT第5-13页
第一章 绪论第13-18页
   ·研究背景及意义第13页
   ·相关工作第13-16页
     ·概率数据模式和概率数据库模型第14-15页
     ·不确定数据管理项目第15页
     ·不确定查询分析处理第15-16页
   ·不确定数据清洗第16-17页
   ·本文研究内容及组织结构第17-18页
第二章 不确定数据模型和不确定数据查询第18-30页
   ·不确定数据模型和概率数据库第18-21页
     ·不确定数据模型第18页
     ·概率数据库的描述和定义第18-21页
   ·不确定数据查询分类第21-25页
   ·基于实体查询的评估及回答质量第25-29页
     ·ERQ 的评估及查询回答质量第25-26页
     ·ENNQ 和 EMinQ(EMinQ)的评估及查询回答质量第26-29页
   ·小结第29-30页
第三章 不确定数据重复记录检测第30-47页
   ·重复检测的主要步骤第30-32页
   ·重复检测中的字段匹配第32-36页
     ·基于字符的相似性度量第32-34页
     ·基于标记的相似性度量第34-35页
     ·语音的相似度量第35页
     ·XML 数据的相似性度量第35-36页
   ·重复检测中的记录匹配模型第36-39页
     ·概率匹配模型第37-38页
     ·基于规则的方法第38-39页
   ·不确定数据重复记录检测第39-41页
     ·无依赖的不确定重复检测第39-40页
     ·有依赖的不确定重复检测第40-41页
   ·X-元组重复检测模型及其改进第41-44页
     ·x-元组重复检测模型第41-42页
     ·x-元组重复检测模型的改进第42-44页
   ·实验第44-45页
   ·小结第45-47页
第四章 属性不确定数据的清洗第47-59页
   ·引言第47-48页
   ·系统架构第48-49页
   ·概率查询质量和查询资源预算第49-50页
     ·质量分值第49-50页
     ·查询资源预算第50页
   ·查询质量在有限资源下的最大化第50-55页
     ·单查询第51-52页
     ·SQ 问题的动态规划算法第52-53页
     ·共享查询资源预算的多查询第53页
     ·近似最优的解决方案第53-54页
     ·随机启发式算法和最大启发式算法第54-55页
   ·实验结果第55-57页
     ·实验配置第55页
     ·实验结果第55-57页
   ·小结第57-59页
第五章 元组不确定数据的清洗第59-79页
   ·引言第59-60页
   ·系统架构第60-62页
   ·概率数据库模型和不确定查询第62-63页
     ·概率数据库模型第62页
     ·不确定查询第62-63页
   ·PWS-评估质量第63-68页
     ·PWS-EQ第63-64页
     ·PWS-EQ 的 c-形式第64-65页
     ·ERQ 的 c-形式推导第65-66页
     ·EMinQ 的 c-形式推导第66-68页
   ·不确定元组数据清洗第68-72页
     ·问题定义第68-69页
     ·评估质量提高第69-70页
     ·数据清洗算法第70-71页
     ·启发式数据清理算法第71页
     ·增量查询处理第71-72页
   ·结果第72-78页
     ·实验配置第72页
     ·结果第72-78页
   ·小结第78-79页
第六章 总结与展望第79-81页
   ·总结第79页
   ·展望第79-81页
参考文献第81-87页
致谢第87-88页
在学期间发表的学术论文第88页

论文共88页,点击 下载论文
上一篇:基于XML的移动区域建模与agent仿真数据管理
下一篇:基于Oracle Streams的数据库实时备份与恢复技术研究