首页--语言、文字论文--语言学论文--应用语言学论文--数理语言学论文

以《汉书》为例的中古汉语自动分词

摘要第3-5页
Abstract第5-6页
第1章 绪论第9-16页
    1.1 选题理由及意义第9-10页
    1.2 中文自动分词现状第10-13页
    1.3 面向古代汉语的自然语言处理第13-14页
    1.4 本文研究内容概述第14-16页
第2章 《汉书》词语切分第16-31页
    2.1 语料分析第16-17页
        2.1.1 语料来源和说明第16页
        2.1.2 《汉书》的用字统计第16-17页
    2.2 中古汉语复音词汇特征第17-19页
        2.2.1 中古的时代界定第17页
        2.2.2 中古复音词概貌第17-18页
        2.2.3 中古复音词判定第18-19页
    2.3 面向《汉书》的分词细则第19-31页
        2.3.1 现有规范处理古代汉语分词的不足第19-20页
        2.3.2 《汉书》分词原则第20-26页
        2.3.3 疑难字串处理办法讨论第26-31页
第3章 基于词汇获取的分词处理第31-42页
    3.1 获取词表词第31-33页
        3.1.1 先秦沿袭词表分词第31-32页
        3.1.2 人名地名表分词第32-33页
    3.2 互信息获取词汇第33-34页
        3.2.1 统计量的选取第33页
        3.2.2 互信息分词结果第33-34页
    3.3 注疏文献获取词汇第34-39页
        3.3.1 注疏对齐第34-37页
        3.3.2 注疏分词的实现第37-39页
        3.3.3 注疏分词结果第39页
    3.4 基于不同词表的分词对比第39-42页
        3.4.1 各词表分词结果第39-40页
        3.4.2 组合词表分词第40-41页
        3.4.3 存在问题第41-42页
第4章 基于字标注的分词处理第42-49页
    4.1 条件随机场简介第42-43页
        4.1.1 模型概述第42页
        4.1.2 CRF原理第42-43页
        4.1.3 工具包使用第43页
    4.2 标注方法第43-44页
        4.2.1 由字构词第43页
        4.2.2 汉书四词位分词第43-44页
    4.3 特征及模板选择第44-45页
    4.4 分词实验第45-49页
        4.4.1 基于简单的字面信息的分词结果第45-46页
        4.4.2 基于复杂语言特征的分词结果第46-49页
第5章 结论与展望第49-53页
    5.1 研究的总结第49页
    5.2 汉书词汇概貌第49-52页
        5.2.1 词长统计第49-50页
        5.2.2 高频词统计第50-51页
        5.2.3 四字成语统计第51页
        5.2.4 时代特征词统计第51-52页
    5.3 存在问题及展望第52-53页
附录A第53-54页
参考文献第54-59页
致谢第59-60页

论文共60页,点击 下载论文
上一篇:新派南京话元音系统的实验研究
下一篇:初级阶段留学生课堂词汇使用情况研究