首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于DBSCAN算法的相似重复记录检测方法研究

摘要第1-6页
Abstract第6-10页
第1章 绪论第10-18页
   ·问题的提出第10-11页
   ·数据质量问题第11-13页
     ·数据质量问题的概述第11页
     ·数据质量问题的分类第11-13页
   ·数据清洗的研究现状第13-15页
     ·国外的研究现状第13-14页
     ·国内研究现状第14-15页
   ·数据清洗应用的基本领域第15-16页
   ·本文的工作和内容组织第16-18页
第2章 数据清洗中相似重复记录知识第18-38页
   ·相似重复记录概述第18-20页
   ·记录的匹配知识第20-28页
     ·距离函数第22-23页
     ·相似度度量(Similarity Measure)方法第23-24页
     ·基于N—gram的字符串匹配算法第24-25页
     ·编辑距离(Edit Distance)第25-26页
     ·Cosine相似度(CosineSimirality)函数第26-27页
     ·N-gram层次空间相似度度量第27-28页
   ·消除相似重复记录的基本算法简介第28-36页
     ·优先队列排序算法第28-30页
     ·多个关键字相组合对数据集进行排序的方法第30-31页
     ·Smith-Waterman算法第31-32页
     ·对象合并第32-34页
     ·近邻排序算法第34-35页
     ·改进的SNM算法第35-36页
     ·DBSCAN聚类方法第36页
   ·清洗结果的评价标准第36页
   ·本章小结第36-38页
第3章 DBSCAN聚类算法第38-46页
   ·聚类第38-41页
     ·主要聚类方法的分类第38-39页
     ·DBSCAN聚类之前的问题分析(数据准备)第39-41页
   ·DBSCAN聚类算法第41-45页
   ·本章小结第45-46页
第4章 DBSCAN算法存在的问题及改进第46-50页
   ·DBSCAN算法存在的问题第46-47页
   ·pair-wise比较算法第47-49页
   ·本章小结第49-50页
第5章 相似重复记录检测方法的实现第50-58页
   ·数据结构的需求分析和定义第50页
   ·与数据库的底层连接及数据交换第50-52页
   ·DBSCAN的聚类过程第52-54页
     ·准备DBSCAN表第52-53页
     ·寻找核心点第53页
     ·聚类第53-54页
   ·检测相似重复记录的算法第54-55页
   ·测试实验第55-57页
   ·本章小结第57-58页
结论第58-59页
参考文献第59-63页
攻读硕士学位期间发表的论文和取得的科研成果第63-64页
致谢第64页

论文共64页,点击 下载论文
上一篇:四种吡啶衍生物的固液相平衡研究
下一篇:危险化学品库的安全评价系统研究与设计