中文文本复制检测技术研究
摘要 | 第1-6页 |
ABSTRACT | 第6-8页 |
目录 | 第8-10页 |
第1章 绪论 | 第10-16页 |
·课题研究的背景 | 第10-11页 |
·课题研究的目的和意义 | 第11-13页 |
·复制检测在搜索引擎中的作用 | 第12页 |
·复制检测在知识产权保护中的作用 | 第12-13页 |
·课题研究现状 | 第13-14页 |
·本文的研究内容 | 第14页 |
·本文的组织 | 第14-16页 |
第2章 文本复制检测的相关知识 | 第16-26页 |
·文本复制检测定义 | 第16页 |
·文本复制检测一般模型 | 第16-18页 |
·文本复制检测方法的分类 | 第18页 |
·基于匹配统计的方法 | 第18页 |
·基于词频统计的方法 | 第18页 |
·文本复制检测的基本步骤 | 第18-23页 |
·文本预处理策略 | 第18-19页 |
·文本分块策略 | 第19-20页 |
·特征提取策略 | 第20-22页 |
·相似度计算策略 | 第22-23页 |
·常用文本复制检测算法的分析和比较 | 第23-25页 |
·基于向量空间模型的方法 | 第23页 |
·基于SimHash 方法 | 第23-24页 |
·基于N-Gram 特征串的方法 | 第24页 |
·基于句子比较的复制检测方法 | 第24-25页 |
·复制检测算法的评价标准 | 第25页 |
·文本复制检测算法的选择 | 第25-26页 |
第3章 改进的中文文复制检测算法 | 第26-35页 |
·改进的基于 N-Gram的文本复制检测方法 | 第26-29页 |
·常用汉字选取 | 第26页 |
·N-Gram 项介绍 | 第26-27页 |
·文本特征映射模型 | 第27页 |
·算法过程描述 | 第27页 |
·算法优化 | 第27-29页 |
·算法总结 | 第29页 |
·改进的基于句子比较的文本复制检测方法 | 第29-35页 |
·算法总体流程 | 第30页 |
·算法具体步骤 | 第30-32页 |
·文本预处理详述 | 第32-33页 |
·句子-文档多层倒排索引详述 | 第33-34页 |
·算法总结 | 第34-35页 |
第4章 实验测试与性能评价 | 第35-53页 |
·系统体系结构 | 第35-37页 |
·语料文本预处理模块 | 第36页 |
·构建文本内存表示的模块 | 第36页 |
·复制检测计算模块 | 第36页 |
·检测结果生成和查看模块 | 第36-37页 |
·系统控制模块 | 第37页 |
·文本表示相关描述 | 第37页 |
·复制检测算法性能评价标准 | 第37-41页 |
·重复标准的设定 | 第37-39页 |
·性能评价指标 | 第39-41页 |
·测试语料 | 第41-43页 |
·改进的基于 N-Gram的复制检测算法实验 | 第43-49页 |
·实验一 N 取值实验 | 第43-45页 |
·实验二窗口宽度W 取值实验 | 第45-47页 |
·实验三 Tset 阈值实验 | 第47-49页 |
·实验四算法时间效率测试 | 第49页 |
·实验总结 | 第49页 |
·改进的基于句子比较的文本复制检测算法实验 | 第49-52页 |
·单文本编辑复制检测测试 | 第50页 |
·语料库复制检测测试 | 第50-52页 |
·实验总结 | 第52页 |
·两种算法的比较分析 | 第52-53页 |
第5章 总结与工作展望 | 第53-55页 |
·本文的主要研究工作及成果 | 第53-54页 |
·存在的问题及对将来工作的展望 | 第54-55页 |
致谢 | 第55-56页 |
参考文献 | 第56-60页 |
附录 | 第60-61页 |