首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

中文文本复制检测技术研究

摘要第1-6页
ABSTRACT第6-8页
目录第8-10页
第1章 绪论第10-16页
   ·课题研究的背景第10-11页
   ·课题研究的目的和意义第11-13页
     ·复制检测在搜索引擎中的作用第12页
     ·复制检测在知识产权保护中的作用第12-13页
   ·课题研究现状第13-14页
   ·本文的研究内容第14页
   ·本文的组织第14-16页
第2章 文本复制检测的相关知识第16-26页
   ·文本复制检测定义第16页
   ·文本复制检测一般模型第16-18页
   ·文本复制检测方法的分类第18页
     ·基于匹配统计的方法第18页
     ·基于词频统计的方法第18页
   ·文本复制检测的基本步骤第18-23页
     ·文本预处理策略第18-19页
     ·文本分块策略第19-20页
     ·特征提取策略第20-22页
     ·相似度计算策略第22-23页
   ·常用文本复制检测算法的分析和比较第23-25页
     ·基于向量空间模型的方法第23页
     ·基于SimHash 方法第23-24页
     ·基于N-Gram 特征串的方法第24页
     ·基于句子比较的复制检测方法第24-25页
     ·复制检测算法的评价标准第25页
   ·文本复制检测算法的选择第25-26页
第3章 改进的中文文复制检测算法第26-35页
   ·改进的基于 N-Gram的文本复制检测方法第26-29页
     ·常用汉字选取第26页
     ·N-Gram 项介绍第26-27页
     ·文本特征映射模型第27页
     ·算法过程描述第27页
     ·算法优化第27-29页
     ·算法总结第29页
   ·改进的基于句子比较的文本复制检测方法第29-35页
     ·算法总体流程第30页
     ·算法具体步骤第30-32页
     ·文本预处理详述第32-33页
     ·句子-文档多层倒排索引详述第33-34页
     ·算法总结第34-35页
第4章 实验测试与性能评价第35-53页
   ·系统体系结构第35-37页
     ·语料文本预处理模块第36页
     ·构建文本内存表示的模块第36页
     ·复制检测计算模块第36页
     ·检测结果生成和查看模块第36-37页
     ·系统控制模块第37页
   ·文本表示相关描述第37页
   ·复制检测算法性能评价标准第37-41页
     ·重复标准的设定第37-39页
     ·性能评价指标第39-41页
   ·测试语料第41-43页
   ·改进的基于 N-Gram的复制检测算法实验第43-49页
     ·实验一 N 取值实验第43-45页
     ·实验二窗口宽度W 取值实验第45-47页
     ·实验三 Tset 阈值实验第47-49页
     ·实验四算法时间效率测试第49页
     ·实验总结第49页
   ·改进的基于句子比较的文本复制检测算法实验第49-52页
     ·单文本编辑复制检测测试第50页
     ·语料库复制检测测试第50-52页
     ·实验总结第52页
   ·两种算法的比较分析第52-53页
第5章 总结与工作展望第53-55页
   ·本文的主要研究工作及成果第53-54页
   ·存在的问题及对将来工作的展望第54-55页
致谢第55-56页
参考文献第56-60页
附录第60-61页

论文共61页,点击 下载论文
上一篇:交通视频中视点无关目标分类与检索方法研究
下一篇:基于轻量级构件的嵌入式软件开发的研究及应用