中文文本复制检测技术研究
| 摘要 | 第1-6页 |
| ABSTRACT | 第6-8页 |
| 目录 | 第8-10页 |
| 第1章 绪论 | 第10-16页 |
| ·课题研究的背景 | 第10-11页 |
| ·课题研究的目的和意义 | 第11-13页 |
| ·复制检测在搜索引擎中的作用 | 第12页 |
| ·复制检测在知识产权保护中的作用 | 第12-13页 |
| ·课题研究现状 | 第13-14页 |
| ·本文的研究内容 | 第14页 |
| ·本文的组织 | 第14-16页 |
| 第2章 文本复制检测的相关知识 | 第16-26页 |
| ·文本复制检测定义 | 第16页 |
| ·文本复制检测一般模型 | 第16-18页 |
| ·文本复制检测方法的分类 | 第18页 |
| ·基于匹配统计的方法 | 第18页 |
| ·基于词频统计的方法 | 第18页 |
| ·文本复制检测的基本步骤 | 第18-23页 |
| ·文本预处理策略 | 第18-19页 |
| ·文本分块策略 | 第19-20页 |
| ·特征提取策略 | 第20-22页 |
| ·相似度计算策略 | 第22-23页 |
| ·常用文本复制检测算法的分析和比较 | 第23-25页 |
| ·基于向量空间模型的方法 | 第23页 |
| ·基于SimHash 方法 | 第23-24页 |
| ·基于N-Gram 特征串的方法 | 第24页 |
| ·基于句子比较的复制检测方法 | 第24-25页 |
| ·复制检测算法的评价标准 | 第25页 |
| ·文本复制检测算法的选择 | 第25-26页 |
| 第3章 改进的中文文复制检测算法 | 第26-35页 |
| ·改进的基于 N-Gram的文本复制检测方法 | 第26-29页 |
| ·常用汉字选取 | 第26页 |
| ·N-Gram 项介绍 | 第26-27页 |
| ·文本特征映射模型 | 第27页 |
| ·算法过程描述 | 第27页 |
| ·算法优化 | 第27-29页 |
| ·算法总结 | 第29页 |
| ·改进的基于句子比较的文本复制检测方法 | 第29-35页 |
| ·算法总体流程 | 第30页 |
| ·算法具体步骤 | 第30-32页 |
| ·文本预处理详述 | 第32-33页 |
| ·句子-文档多层倒排索引详述 | 第33-34页 |
| ·算法总结 | 第34-35页 |
| 第4章 实验测试与性能评价 | 第35-53页 |
| ·系统体系结构 | 第35-37页 |
| ·语料文本预处理模块 | 第36页 |
| ·构建文本内存表示的模块 | 第36页 |
| ·复制检测计算模块 | 第36页 |
| ·检测结果生成和查看模块 | 第36-37页 |
| ·系统控制模块 | 第37页 |
| ·文本表示相关描述 | 第37页 |
| ·复制检测算法性能评价标准 | 第37-41页 |
| ·重复标准的设定 | 第37-39页 |
| ·性能评价指标 | 第39-41页 |
| ·测试语料 | 第41-43页 |
| ·改进的基于 N-Gram的复制检测算法实验 | 第43-49页 |
| ·实验一 N 取值实验 | 第43-45页 |
| ·实验二窗口宽度W 取值实验 | 第45-47页 |
| ·实验三 Tset 阈值实验 | 第47-49页 |
| ·实验四算法时间效率测试 | 第49页 |
| ·实验总结 | 第49页 |
| ·改进的基于句子比较的文本复制检测算法实验 | 第49-52页 |
| ·单文本编辑复制检测测试 | 第50页 |
| ·语料库复制检测测试 | 第50-52页 |
| ·实验总结 | 第52页 |
| ·两种算法的比较分析 | 第52-53页 |
| 第5章 总结与工作展望 | 第53-55页 |
| ·本文的主要研究工作及成果 | 第53-54页 |
| ·存在的问题及对将来工作的展望 | 第54-55页 |
| 致谢 | 第55-56页 |
| 参考文献 | 第56-60页 |
| 附录 | 第60-61页 |