首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于SNM算法的大数据量中文商品清洗方法研究

摘要第6-7页
Abstract第7-8页
第1章 绪论第13-19页
    1.1 研究背景及意义第13-14页
    1.2 中文数据清洗技术研究现状第14-16页
        1.2.1 国外研究现状第14-15页
        1.2.2 中文数据清洗的国内研究现状第15-16页
    1.3 中文数据清洗研究的重点和难点第16-17页
    1.4 本文研究内容第17-18页
    1.5 本文组织结构第18-19页
第2章 相似重复记录清洗技术综述第19-29页
    2.1 相关概念第19-25页
        2.1.1 数据清洗第19-22页
        2.1.2 数据质量第22-23页
        2.1.3 重复记录第23-24页
        2.1.4 相似重复记录的清洗过程第24-25页
    2.2 数据清洗与数据质量之间的关系第25页
    2.3 标准邻近排序算法第25-28页
        2.3.1 SNM算法的基本原理第26-27页
        2.3.2 算法描述第27-28页
    2.4 本章小结第28-29页
第3章 改进的近邻排序算法第29-37页
    3.1 改进的SNM算法的基本思想第29-30页
    3.2 标准化方法第30-31页
        3.2.1 补全操作的改进第30页
        3.2.2 分割排序操作的改进第30-31页
    3.3 算法基本步骤第31-32页
    3.4 中文字段匹配算法第32-33页
    3.5 中文分词实验以及结果分析第33-34页
    3.6 本章小结第34-37页
第4章 改进邻近排序算法的应用第37-49页
    4.1 应用背景第37-38页
    4.2 源数据中存在的问题第38页
    4.3 相似重复记录检测算法第38-43页
        4.3.1 相似重复记录检测算法描述第38-39页
        4.3.2 编辑距离算法描述第39-42页
        4.3.3 重复记录清洗算法效率度量标准第42-43页
        4.3.4 评价指标第43页
    4.4 算法实验与分析第43-46页
    4.5 本章小结第46-49页
第5章 实验结果与性能分析第49-57页
    5.1 实验环境和条件设置第49-50页
    5.2 实验内容和结果分析第50-55页
    5.3 本章小结第55-57页
结论第57-59页
参考文献第59-63页
攻读学位期间发表的论文第63-65页
致谢第65页

论文共65页,点击 下载论文
上一篇:基于视频的火焰检测算法研究
下一篇:标签协同过滤推荐算法的研究和若干改进策略