首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于n-gram的中文文本复制检测研究

摘要第5-6页
Abstract第6-7页
第1章 绪论第13-28页
    1.1 课题来源第14页
    1.2 研究目的与意义第14-15页
    1.3 概念、模型与评价指标第15-18页
        1.3.1 文本复制检测的概念与模型第15-17页
        1.3.2 评价指标第17-18页
    1.4 国内外研究进展第18-26页
        1.4.1 非自然语言文本复制检测第18-21页
        1.4.2 自然语言文本复制检测第21-26页
    1.5 本文主要工作第26页
    1.6 论文结构第26-28页
第2章 N-gram与中文信息处理第28-44页
    2.1 N-gram语言模型第28-34页
        2.1.1 模型简述第28-30页
        2.1.2 齐普夫定律第30-32页
        2.1.3 平滑方法第32-34页
    2.2 中文自然语言处理简介第34-40页
        2.2.1 中文处理的特点第34-35页
        2.2.2 中文分词第35-38页
        2.2.3 词义描述第38-40页
    2.3 文本索引第40-43页
        2.3.1 倒排索引第41-42页
        2.3.2 后缀数组第42-43页
    2.4 小结第43-44页
第3章 任意长度中文n-gram频率统计方法第44-60页
    3.1 引言第44-45页
    3.2 基于汉字的二级索引第45-51页
        3.2.1 汉字映射及地址编码第45-47页
        3.2.2 基于2-gram的二级倒排索引第47-51页
    3.3 N-gram频率统计第51-54页
        3.3.1 频率统计方案第51-53页
        3.3.2 统计算法第53-54页
    3.4 实验与性能分析第54-59页
        3.4.1 空间效率与实验分析第54-57页
        3.4.2 时间复杂度分析第57-59页
    3.5 小结第59-60页
第4章 基于Ferret的中文n-gram长度选取第60-76页
    4.1 引言第60-62页
    4.2 最佳片段长度第62-66页
        4.2.1 检测单位的选取第62-63页
        4.2.2 流程与算法第63-64页
        4.2.3 实验与分析第64-66页
    4.3 Ferret算法的改进第66-72页
        4.3.1 权值计算第67页
        4.3.2 基于中心距离的重叠度计算方法第67-71页
        4.3.3 算法实现第71-72页
    4.4 实验与分析第72-74页
        4.4.1 参数取值第72-73页
        4.4.2 N取值与排序结果第73-74页
    4.5 小结第74-76页
第5章 基于同义词替换的复制检测方法第76-87页
    5.1 引言第76-77页
    5.2 真实语言环境下的同义词扩展第77-80页
        5.2.1 bigram同义词扩展第78-79页
        5.2.2 基于语料库的bigram过滤第79-80页
    5.3 同义词扩展检测第80-82页
        5.3.1 扩展目标的选取第81-82页
        5.3.2 重叠度计算第82页
    5.4 实验与分析第82-85页
        5.4.1 实验数据构建第82-83页
        5.4.2 同义词扩展统计第83-84页
        5.4.3 性能分析第84-85页
    5.5 小结第85-87页
第6章 基于词性序列与低频片段的文本指纹第87-95页
    6.1 引言第87-88页
    6.2 词性序列与文本指纹第88-90页
        6.2.1 词性标注与词性序列第88-89页
        6.2.2 基于句子的文本指纹第89-90页
    6.3 检测算法第90-93页
        6.3.1 指纹生成流程第90-91页
        6.3.2 哈希值存储结构第91页
        6.3.3 算法实现第91-93页
    6.4 实验与分析第93-94页
        6.4.1 测试集的构建第93页
        6.4.2 检测结果第93-94页
    6.5 小结第94-95页
结论第95-97页
参考文献第97-106页
附录A 攻读学位期间所撰写的学术论文目录第106-107页
附录B 攻读学位期间所参与的研究项目第107-108页
致谢第108页

论文共108页,点击 下载论文
上一篇:分布式环境下skyline查询处理技术研究
下一篇:针对学术文献的句子级知识抽取研究