首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

相似重复记录的数据清洗技术的研究

摘要第7-8页
Abstract第8页
第1章 绪论第12-18页
    1.1 研究背景及意义第12-14页
    1.2 国内外研究现状第14-16页
        1.2.1 国外研究现状第14-15页
        1.2.2 国内研究现状第15-16页
    1.3 本文研究内容第16页
    1.4 论文结构第16-18页
第2章 相似重复记录清洗技术综述第18-33页
    2.1 相关概念第18-26页
        2.1.1“脏数据”第18-19页
        2.1.2 相似重复记录第19-21页
        2.1.3 数据清洗概念第21-24页
        2.1.4 数据清洗流程第24-26页
    2.2 相似重复记录的识别第26-32页
        2.2.1 基于排序合并的相似重复记录的辨别第27-30页
        2.2.2 基于聚类的相似重复记录的识别第30-32页
    2.3 本章小结第32-33页
第3章 基于N-Gram算法的相似重复记录检测第33-42页
    3.1 N-Gram算法概述第33-34页
    3.2 数据预处理第34-36页
    3.3 N-Gram算法流程第36-39页
        3.3.1 标记第36-38页
        3.3.2 计算排序第38-39页
    3.4 N值选取第39-40页
    3.5 N-Gram算法的改进第40页
    3.6 本章小结第40-42页
第4章 相似度检测第42-50页
    4.1 字段匹配算法第42-45页
        4.1.1 基本的字段匹配算法第43-44页
        4.1.2 递归的字段匹配算法第44-45页
    4.2 Smith—waterman算法第45-46页
        4.2.1 基本的Smith-waterman算法第45-46页
        4.2.2 改进的Smith—waterman算法第46页
    4.3 编辑距离算法第46-47页
    4.4 基于优先级的数据清洗第47-49页
    4.5 本章小结第49-50页
第5章 系统设计与实现第50-61页
    5.1 系统设计思想第50-52页
    5.2 系统运行平台第52页
    5.3 实验数据分析第52-53页
    5.4 各功能模块分析第53-54页
    5.5 实验结果分析第54-60页
    5.6 本章小结第60-61页
结论第61-64页
参考文献第64-69页
攻读硕士学位期间发表的论文和获得的科研成果第69-70页
致谢第70-71页

论文共71页,点击 下载论文
上一篇:基于连杆欠驱动爬行机器人机理及攀爬稳定性研究
下一篇:基于SVM的Android恶意代码检测研究