基于n-gram的中文文本复制检测研究

摘要	第5-6页
Abstract	第6-7页
第1章绪论	第13-28页
1.1 课题来源	第14页
1.2 研究目的与意义	第14-15页
1.3 概念、模型与评价指标	第15-18页
1.3.1 文本复制检测的概念与模型	第15-17页
1.3.2 评价指标	第17-18页
1.4 国内外研究进展	第18-26页
1.4.1 非自然语言文本复制检测	第18-21页
1.4.2 自然语言文本复制检测	第21-26页
1.5 本文主要工作	第26页
1.6 论文结构	第26-28页
第2章 N-gram与中文信息处理	第28-44页
2.1 N-gram语言模型	第28-34页
2.1.1 模型简述	第28-30页
2.1.2 齐普夫定律	第30-32页
2.1.3 平滑方法	第32-34页
2.2 中文自然语言处理简介	第34-40页
2.2.1 中文处理的特点	第34-35页
2.2.2 中文分词	第35-38页
2.2.3 词义描述	第38-40页
2.3 文本索引	第40-43页
2.3.1 倒排索引	第41-42页
2.3.2 后缀数组	第42-43页
2.4 小结	第43-44页
第3章任意长度中文n-gram频率统计方法	第44-60页
3.1 引言	第44-45页
3.2 基于汉字的二级索引	第45-51页
3.2.1 汉字映射及地址编码	第45-47页
3.2.2 基于2-gram的二级倒排索引	第47-51页
3.3 N-gram频率统计	第51-54页
3.3.1 频率统计方案	第51-53页
3.3.2 统计算法	第53-54页
3.4 实验与性能分析	第54-59页
3.4.1 空间效率与实验分析	第54-57页
3.4.2 时间复杂度分析	第57-59页
3.5 小结	第59-60页
第4章基于Ferret的中文n-gram长度选取	第60-76页
4.1 引言	第60-62页
4.2 最佳片段长度	第62-66页
4.2.1 检测单位的选取	第62-63页
4.2.2 流程与算法	第63-64页
4.2.3 实验与分析	第64-66页
4.3 Ferret算法的改进	第66-72页
4.3.1 权值计算	第67页
4.3.2 基于中心距离的重叠度计算方法	第67-71页
4.3.3 算法实现	第71-72页
4.4 实验与分析	第72-74页
4.4.1 参数取值	第72-73页
4.4.2 N取值与排序结果	第73-74页
4.5 小结	第74-76页
第5章基于同义词替换的复制检测方法	第76-87页
5.1 引言	第76-77页
5.2 真实语言环境下的同义词扩展	第77-80页
5.2.1 bigram同义词扩展	第78-79页
5.2.2 基于语料库的bigram过滤	第79-80页
5.3 同义词扩展检测	第80-82页
5.3.1 扩展目标的选取	第81-82页
5.3.2 重叠度计算	第82页
5.4 实验与分析	第82-85页
5.4.1 实验数据构建	第82-83页
5.4.2 同义词扩展统计	第83-84页
5.4.3 性能分析	第84-85页
5.5 小结	第85-87页
第6章基于词性序列与低频片段的文本指纹	第87-95页
6.1 引言	第87-88页
6.2 词性序列与文本指纹	第88-90页
6.2.1 词性标注与词性序列	第88-89页
6.2.2 基于句子的文本指纹	第89-90页
6.3 检测算法	第90-93页
6.3.1 指纹生成流程	第90-91页
6.3.2 哈希值存储结构	第91页
6.3.3 算法实现	第91-93页
6.4 实验与分析	第93-94页
6.4.1 测试集的构建	第93页
6.4.2 检测结果	第93-94页
6.5 小结	第94-95页
结论	第95-97页
参考文献	第97-106页
附录A 攻读学位期间所撰写的学术论文目录	第106-107页
附录B 攻读学位期间所参与的研究项目	第107-108页
致谢	第108页