首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

文档部分重复检测研究

目录第3-5页
摘要第5-6页
Abstract第6页
第一章 绪论第7-12页
    1.1 前言第7-10页
    1.2 本文的主要内容和组织结构第10-12页
        1.2.1 本文的主要内容第10页
        1.2.2 本文的组织结构第10-12页
第二章 相关研究工作第12-17页
    2.1 常用特征提取算法介绍第12-15页
        2.1.1 DSC和DSC-SS算法第12-13页
        2.1.2 I-Match算法第13-14页
        2.1.3 SpotSig算法第14-15页
    2.2 文本重复检测系统效率相关研究介绍第15-16页
    2.3 小结第16-17页
第三章 句子级别文本重复检测研究第17-27页
    3.1 Low-IDF-SIG特征提取算法第18-21页
        3.1.1 概念与标记方法第19-20页
        3.1.2 特征提取例子第20页
        3.1.3 Low-IDF-SIG的实现第20-21页
    3.2 基于倒排索引的句子级别重复检测第21-26页
        3.2.1 倒排索引的建立第21-24页
        3.2.2 基于倒排索引的句子级别重复检测第24-26页
    3.3 小结第26-27页
第四章 分布式文档部分重复检测研究第27-35页
    4.1 MapReduce与Hadoop简介第27-28页
    4.2 系统流程第28-30页
    4.3 PDC-MR-Ⅱ算法第30-34页
        4.3.1 建立倒排索引第30-32页
        4.3.2 句子级别重复检测与序列匹配第32-34页
    4.4 小结第34-35页
第五章 实验与结论第35-44页
    5.1 特征提取算法实验第35-40页
        5.1.1 特征精度比较第35-39页
        5.1.2 特征综合表现第39-40页
    5.2 PDC-MR-Ⅱ算法性能实验第40-43页
    5.3 小结第43-44页
第六章 结语第44-45页
参考文献第45-47页
攻读学位期间参加的科研项目与发表的论文第47-48页
致谢第48-49页

论文共49页,点击 下载论文
上一篇:基于流复制的B4C电子商务系统设计
下一篇:大型客机装配现场管理系统的设计与实现