摘要 | 第4-5页 |
Abstract | 第5页 |
第1章 绪论 | 第9-13页 |
1.1 课题背景及研究意义 | 第9-10页 |
1.1.1 课题背景 | 第9页 |
1.1.2 研究意义 | 第9-10页 |
1.2 课题研究现状 | 第10-11页 |
1.3 主要研究内容及论文结构 | 第11-13页 |
第2章 文档复制检测的相关知识 | 第13-22页 |
2.1 文档复制检测的概念 | 第13页 |
2.2 文档复制检测的基本步骤 | 第13-18页 |
2.2.1 文本内容提取 | 第13-14页 |
2.2.2 文本预处理 | 第14页 |
2.2.3 文本块划分 | 第14-16页 |
2.2.4 文本块特征提取 | 第16-17页 |
2.2.5 文本相似度计算 | 第17-18页 |
2.3 常用文本复制检测算法的介绍 | 第18-20页 |
2.3.1 基于向量空间模型的复制检测方法 | 第18页 |
2.3.2 基于 SimHash 的复制检测方法 | 第18-19页 |
2.3.3 基于 N-Gram 的复制检测方法 | 第19页 |
2.3.4 基于句子相似度计算的复制检测方法 | 第19-20页 |
2.4 文档复制检测算法的评价标准 | 第20-21页 |
2.4.1 检测效果 | 第20-21页 |
2.4.2 检测效率 | 第21页 |
2.5 本章小结 | 第21-22页 |
第3章 改进的文本复制检测方法 | 第22-34页 |
3.1 问题的提出 | 第22页 |
3.2 算法思想 | 第22-24页 |
3.2.1 传统的基于句子相似度的复制检测方法(BSP) | 第22-23页 |
3.2.2 改进后的基于句子相似度的复制检测方法 | 第23-24页 |
3.3 倒排索引结构的构建方法 | 第24-27页 |
3.4 基于有序的最长公共子序列的句子相似度计算算法 | 第27-29页 |
3.5 基于关键词距离的句子局部复制检测算法 | 第29-31页 |
3.6 基于搜索引擎的在线复制检测方法 | 第31-32页 |
3.7 文档相似性度量 | 第32-33页 |
3.8 本章小结 | 第33-34页 |
第4章 文本复制检测系统的设计与实现 | 第34-48页 |
4.1 系统功能框架 | 第34页 |
4.2 主要功能模块 | 第34-44页 |
4.2.0 文档采集模块 | 第34-35页 |
4.2.1 文档注册模块 | 第35页 |
4.2.2 文档检索模块 | 第35页 |
4.2.3 本地复制检测模块 | 第35-38页 |
4.2.4 分布式复制检测模块 | 第38页 |
4.2.5 在线复制检测模块 | 第38-39页 |
4.2.6 同义词库管理模块 | 第39-41页 |
4.2.7 系统设置模块 | 第41页 |
4.2.8 检测结果报告模块 | 第41-44页 |
4.3 数据存储设计 | 第44-47页 |
4.3.1 结构设计 | 第44-45页 |
4.3.2 数据库的存储过程 | 第45-47页 |
4.4 本章小结 | 第47-48页 |
第5章 实验评测与结果分析 | 第48-57页 |
5.1 实验环境 | 第48页 |
5.2 测试语料 | 第48-49页 |
5.3 实验结果与分析 | 第49-55页 |
5.3.1 抄袭句子的检测实验与分析 | 第49-50页 |
5.3.2 完全复制检测实验与分析 | 第50-51页 |
5.3.3 部分复制检测实验与分析 | 第51-52页 |
5.3.4 中英文文本的复制检测实验 | 第52-53页 |
5.3.5 繁简体文本的复制检测实验 | 第53-54页 |
5.3.6 无关文档的复制检测实验 | 第54-55页 |
5.3.7 与传统 BSP 检测算法的比较 | 第55页 |
5.4 实验总结 | 第55-57页 |
结论 | 第57-58页 |
参考文献 | 第58-61页 |
攻读学位期间发表的学术论文 | 第61-63页 |
致谢 | 第63页 |