摘要 | 第5-7页 |
Abstract | 第7-9页 |
第一章 绪论 | 第13-29页 |
1.1 抄袭的概念和发展 | 第13-19页 |
1.1.1 抄袭的起源和定义 | 第13-14页 |
1.1.2 抄袭的界定和分类 | 第14-15页 |
1.1.3 抄袭行为的现状和发展趋势 | 第15-18页 |
1.1.4 反抄袭宣传和教育 | 第18-19页 |
1.2 抄袭检测分类 | 第19-20页 |
1.3 自然语言文本复制检测技术 | 第20-26页 |
1.3.1 基于语法的方法 | 第20-23页 |
1.3.2 基于语义的方法 | 第23-26页 |
1.4 本文的研究内容 | 第26-28页 |
1.4.1 数据集及评价指标研究 | 第26页 |
1.4.2 自然语言文本特征表示和重用文档预选 | 第26-27页 |
1.4.3 文本特征向量降维 | 第27页 |
1.4.4 相似文本标定 | 第27页 |
1.4.5 学生作业查重系统 | 第27-28页 |
1.5 内容安排 | 第28-29页 |
第二章 数据集及评价指标研究 | 第29-38页 |
2.1 背景知识分析 | 第29-30页 |
2.2 实验数据集 | 第30-34页 |
2.2.1 PAN抄袭检测竞赛公用数据集 | 第30-32页 |
2.2.2 模拟抄袭论文集 | 第32-33页 |
2.2.3 学生作业数据库 | 第33-34页 |
2.3 评价指标 | 第34-36页 |
2.3.1 传统信息检索评价指标 | 第34页 |
2.3.2 PAN抄袭检测评价指标 | 第34-36页 |
2.4 实验环境 | 第36-38页 |
第三章 基于语义匹配的相似文档快速预选方法 | 第38-62页 |
3.1 引言 | 第38-39页 |
3.2 指纹向量的设计 | 第39-47页 |
3.2.1 指纹向量建立的步骤 | 第39-41页 |
3.2.2 子块划分方法 | 第41-43页 |
3.2.3 指纹的计算方法 | 第43-44页 |
3.2.4 指纹的抽样方法 | 第44-47页 |
3.3 相似文档预选方法 | 第47-49页 |
3.3.1 相似文档预选评价方法 | 第47页 |
3.3.2 相似文档预选方法及存在的问题 | 第47-49页 |
3.4 基于语义匹配的快速预选算法 | 第49-53页 |
3.5 实验与分析 | 第53-60页 |
3.5.1 数据集构成分析 | 第53-54页 |
3.5.2 实验方法及衡量指标 | 第54-55页 |
3.5.3 实验结果分析 | 第55-60页 |
3.6 本章小结 | 第60-62页 |
第四章 相似文档预选中的保相似性降维技术 | 第62-81页 |
4.1 相关技术 | 第62-63页 |
4.2 基于Pearson系数的特征向量降维方法 | 第63-67页 |
4.2.1 基本概念 | 第63-64页 |
4.2.2 基于Pearson系数的特征向量降维方法 | 第64-67页 |
4.3 基于Cauchy系数的保相似性降维算法 | 第67-76页 |
4.3.1 相关概念 | 第68-69页 |
4.3.2 问题 | 第69-70页 |
4.3.3 算法介绍和推导 | 第70-75页 |
4.3.4 与基于VSM-tfidf检索的对比 | 第75-76页 |
4.4 实验与分析 | 第76-80页 |
4.4.1 实验衡量指标 | 第76页 |
4.4.2 实验结果分析 | 第76-80页 |
4.5 本章小结 | 第80-81页 |
第五章 基于斜率密度聚类的相似文本标定方法 | 第81-112页 |
5.1 引言 | 第81页 |
5.2 常用的相似文本标定方法 | 第81-85页 |
5.2.1 精确匹配方法 | 第81页 |
5.2.2 启发式匹配方法 | 第81-82页 |
5.2.3 改进的LCS方法 | 第82-85页 |
5.3 聚类算法介绍 | 第85-88页 |
5.3.1 聚类的概念及过程 | 第85-86页 |
5.3.2 聚类算法分类 | 第86-88页 |
5.4 不对称包含度的文本层次聚类 | 第88-92页 |
5.4.1 聚类在信息检索中的应用 | 第88-89页 |
5.4.2 基于不对称包含度的相似文本聚类 | 第89-92页 |
5.5 基于斜率密度聚类的相似文本标定方法 | 第92-103页 |
5.5.1 系统框架 | 第92-93页 |
5.5.2 匹配指纹处理 | 第93-95页 |
5.5.3 基于斜率密度聚类算法和实现 | 第95-102页 |
5.5.4 后处理 | 第102-103页 |
5.6 实验与分析 | 第103-111页 |
5.6.1 实验衡量指标 | 第103-105页 |
5.6.2 数据集构成分析 | 第105-107页 |
5.6.3 实验结果分析 | 第107-111页 |
5.7 本章小结 | 第111-112页 |
第六章 抄袭检测技术在学习平台中的应用 | 第112-117页 |
6.1 引言 | 第112页 |
6.2 系统设计 | 第112-115页 |
6.3 抄袭检测模块的实现 | 第115-116页 |
6.4 本章小结 | 第116-117页 |
结论与展望 | 第117-119页 |
参考文献 | 第119-125页 |
攻读博士学位期间取得的研究成果 | 第125-127页 |
致谢 | 第127-128页 |
附件 | 第128页 |