首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

海量数据相似重复记录检测的研究

摘要第1-4页
Abstract第4-9页
第一章 绪论第9-14页
   ·引言第9页
   ·国内外研究现状第9-12页
     ·国外研究现状第9-10页
     ·国内研究现状第10-12页
   ·课题来源和主要研究内容第12-13页
   ·论文的组织结构第13-14页
第二章 相似重复记录检测技术与方法第14-27页
   ·相似重复记录概述第14-16页
     ·相似重复记录介绍第14-15页
     ·相似重复记录清洗过程第15-16页
   ·记录排序第16-17页
   ·记录相似性度量方法第17-21页
     ·编辑距离第17-18页
     ·距离函数相似性度量第18-19页
     ·按权相加相似度度量第19-20页
     ·N-gram 字符串匹配算法第20页
     ·N-gram 层次空间相似性度量第20-21页
   ·相似重复记录检测算法第21-26页
     ·优先权队列算法第21-22页
     ·Smith-Waterman 算法第22页
     ·近邻排序算法SNM第22-24页
     ·多趟近邻排序(MPN)算法第24页
     ·CURE 层次聚类方法第24-26页
   ·相似重复记录清除方法和评价标准第26页
     ·相似重复记录清除方法第26页
     ·相似重复记录清洗评价标准第26页
   ·本章小结第26-27页
第三章 DBSCAN 密度聚类算法及改进第27-42页
   ·DBSCAN 聚类算法介绍第27-31页
     ·聚类及其分类第27-28页
     ·DBSCAN 算法的相关介绍第28-30页
     ·DBSCAN 算法描述及实现步骤第30-31页
   ·DBSCAN 算法存在的问题及改进第31-32页
     ·DBSCAN 算法在相似重复检测中存在的问题第31-32页
     ·DBSCAN 算法的改进第32页
   ·IDBS 算法的实现第32-36页
     ·IDBS 算法流程第32-34页
     ·IDBS 算法数据结构定义第34-35页
     ·数据库连接和记录的加载第35页
     ·IDBS 算法的实现第35-36页
   ·实验结果及分析第36-40页
   ·本章小结第40-42页
第四章 基于熵特征优选分组聚类的相似重复记录检测第42-53页
   ·基于熵特征优选分组聚类算法第42-46页
     ·熵的介绍第42页
     ·熵度量对象间的相似度第42-44页
     ·基于熵特征优选分组聚类算法第44-46页
   ·FSGC 算法的实现和实验对比第46-52页
     ·FSGC 算法流程第46-48页
     ·数据的预处理第48页
     ·实验环境第48-49页
     ·实验结果及分析第49-52页
   ·本章小结第52-53页
第五章 基于N-Gram 算法的二次聚类检测第53-63页
   ·二次聚类检测的可行性分析第53-54页
   ·N-Gram 聚类算法及其实现第54-59页
     ·N-Gram 聚类算法思想第54-55页
     ·N-Gram 算法的实现第55-59页
   ·二次聚类相似重复记录检测第59-60页
   ·二次聚类后实验分析对比第60-61页
   ·本章小结第61-63页
第六章 基于多Agent 的三层数据清洗系统模型的设计第63-69页
   ·Agent 技术及多Agent 系统第63页
   ·多Agent 的三层数据清洗系统模型框架的设计第63-68页
     ·数据清洗中的主要问题第63-64页
     ·基于多Agent 的三层数据清洗系统模型第64-67页
     ·模型系统的通信和工作机制第67-68页
   ·本章小结第68-69页
第七章 结论与展望第69-71页
   ·论文总结第69-70页
   ·未来工作展望第70-71页
参考文献第71-75页
致谢第75-76页
作者在攻读硕士期间主要研究成果第76页

论文共76页,点击 下载论文
上一篇:GC-MS数据高性能分析算法研究
下一篇:金相显微图像融合的研究