首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于聚类树的相似重复记录检测算法改进研究

摘要第1-6页
Abstract第6-7页
致谢第7-12页
第一章 绪论第12-19页
   ·研究背景和意义第12页
   ·数据质量第12-15页
     ·数据质量描述第13页
     ·数据质量评价标准第13-14页
     ·数据质量问题第14-15页
   ·数据清洗的定义第15-16页
     ·数据仓库中的数据清洗第15页
     ·KDD 应用中的数据清洗第15-16页
     ·数据质量管理中的数据清洗第16页
   ·数据清洗的研究现状第16-18页
     ·国外的研究现状第16-17页
     ·国内的研究现状第17-18页
   ·本文的研究内容与论文结构第18-19页
第二章 相似重复记录清洗综述第19-28页
   ·相似重复记录清洗概述第19-20页
     ·相似重复记录定义第19-20页
     ·相似重复记录清洗的基本流程第20页
     ·清洗结果的评价标准第20页
   ·字段匹配算法第20-23页
     ·基本字段匹配算法第21页
     ·基于编辑距离的字段匹配算法第21-22页
     ·Smith-Waterman 算法第22-23页
   ·相似重复记录检测算法第23-28页
     ·基本近邻排序法和多趟近邻排序法第23-24页
     ·优先队列算法第24-25页
     ·IPQS 方法和IMPN 方法第25-26页
     ·基于聚类树的算法第26-28页
第三章 算法改进第28-35页
   ·原算法分析第28-29页
     ·属性约减方法分析第28页
     ·聚类树构建过程分析第28-29页
   ·改进思路及方法第29-32页
     ·改进思路第29-30页
     ·改进中引入的方法第30-32页
   ·改进后的算法第32-34页
     ·聚类树描述第32-33页
     ·改进后的算法过程第33-34页
   ·算法比较第34-35页
第四章 实验与结果分析第35-46页
   ·实验准备第35-37页
     ·实验数据准备第35-36页
     ·实验程序准备第36-37页
     ·实验环境第37页
   ·实验过程及实验结果第37-40页
   ·实验结果分析第40-46页
     ·改进后算法与原算法有效性的比较分析第41页
     ·改进后算法属性个数的影响分析第41-43页
     ·改进后算法阈值设定的影响分析第43-44页
     ·改进后算法相似记录数的影响分析第44-46页
第五章 总结和展望第46-48页
参考文献第48-51页
攻读硕士学位期间发表的论文第51-52页

论文共52页,点击 下载论文
上一篇:基于单目视觉的车辆检测与跟踪研究
下一篇:基于块分类技术的自适应数字图像水印算法研究