首页--语言、文字论文--语言学论文--应用语言学论文--数理语言学论文

《左传》《史记》同事异文自动发现及分析

摘要第3-4页
ABSTRACT第4页
第一章 绪论第9-17页
    1.1 课题来源第9-11页
        1.1.1 同事异文的定义第9页
        1.1.2 同事异文的检索技术第9-10页
        1.1.3 本文的实验语料来源第10-11页
    1.2 研究意义第11-12页
        1.2.1 探究古籍本身的校勘意义第11页
        1.2.2 语言学研究的训诂意义第11-12页
        1.2.3 古籍数字化处理的时代意义第12页
    1.3 研究现状第12-15页
        1.3.1 古籍非版本异文的研究现状第12-14页
        1.3.2 句子相似度计算的研究现状第14-15页
    1.4 研究内容第15-16页
    1.5 组织结构第16-17页
第二章 汉语句子相似度算法研究第17-26页
    2.1 句子相似度定义第17页
    2.2 汉语句子相似度计算难点第17-19页
        2.2.1 汉语句子信息处理难点第18页
        2.2.2 古代汉语语料处理难点第18-19页
    2.3 常用的汉语句子相似度算法第19-23页
        2.3.1 基于向量空间模型的TF-IDF方法第19-20页
        2.3.2 基于语义特征的语义词典方法第20-21页
        2.3.3 基于句法特征的依存树方法第21-22页
        2.3.4 算法比较第22-23页
    2.4 编辑距离算法研究第23-26页
        2.4.1 算法简介第23页
        2.4.2 算法现状第23-25页
        2.4.3 存在的主要问题第25-26页
第三章 基于经典编辑距离算法的同事异文发现第26-41页
    3.1 实验语料介绍第26页
    3.2 实验语料预处理及分析第26-31页
        3.2.1 断句处理第26-27页
        3.2.2 句珠对抽取第27-29页
        3.2.3 句珠对抽取原则第29-30页
        3.2.4 句珠对分布特点第30-31页
    3.3 经典编辑距离阈值计算算法第31-35页
        3.3.1 实验流程第31-32页
        3.3.2 算法实验第32-34页
        3.3.3 实验结果分析第34-35页
    3.4 经典编辑距离语义相似度计算算法第35-41页
        3.4.1 相似度转换第35-36页
        3.4.2 实验流程第36页
        3.4.3 算法实验第36-38页
        3.4.4 实验结果分析第38-41页
第四章 基于改进编辑距离算法及事件信息标注的同事异文发现第41-54页
    4.1 改进操作权重的编辑距离算法第41-46页
        4.1.1 编辑操作基础权重设置第41-42页
        4.1.2 字词操作单元权重设置第42-44页
        4.1.3 改进算法实验第44-46页
        4.1.4 实验结果分析第46页
    4.2 事件信息标注第46-49页
        4.2.1 事件信息标注定义第46-47页
        4.2.2 事件信息数据库第47-48页
        4.2.3 标注实验第48-49页
        4.2.4 存在的问题第49页
    4.3 基于改进编辑距离算法以及事件信息标注的同事异文发现第49-54页
        4.3.1 改进编辑距离语义相似度公式第50页
        4.3.2 改进算法实验第50-52页
        4.3.3 实验结果分析第52-54页
第五章 同事异文自动识别结果分析第54-60页
    5.1 同事异文自动识别的几种类型第54-57页
        5.1.1 用字层面第54-55页
        5.1.2 用词层面第55-56页
        5.1.3 用句层面第56-57页
    5.2 《左传》和《史记》的语言风格分析第57-58页
        5.2.1 《左传》的省用现象第57页
        5.2.2 《史记》复音词的增多第57-58页
        5.2.3 《史记》的语义复现现象第58页
    5.3 本文工作的不足之处第58-60页
        5.3.1 操作权重阈值比较主观第58-59页
        5.3.2 大量噪声数据难以剔除第59页
        5.3.3 事件信息标注没有消歧第59-60页
总结与展望第60-61页
附录第61-63页
参考文献第63-66页
致谢第66页

论文共66页,点击 下载论文
上一篇:汉语自闭症儿童隐喻和转喻理解研究
下一篇:基于语料库的学术论文摘要中元话语对比研究