以《汉书》为例的中古汉语自动分词

摘要	第3-5页
Abstract	第5-6页
第1章绪论	第9-16页
1.1 选题理由及意义	第9-10页
1.2 中文自动分词现状	第10-13页
1.3 面向古代汉语的自然语言处理	第13-14页
1.4 本文研究内容概述	第14-16页
第2章《汉书》词语切分	第16-31页
2.1 语料分析	第16-17页
2.1.1 语料来源和说明	第16页
2.1.2 《汉书》的用字统计	第16-17页
2.2 中古汉语复音词汇特征	第17-19页
2.2.1 中古的时代界定	第17页
2.2.2 中古复音词概貌	第17-18页
2.2.3 中古复音词判定	第18-19页
2.3 面向《汉书》的分词细则	第19-31页
2.3.1 现有规范处理古代汉语分词的不足	第19-20页
2.3.2 《汉书》分词原则	第20-26页
2.3.3 疑难字串处理办法讨论	第26-31页
第3章基于词汇获取的分词处理	第31-42页
3.1 获取词表词	第31-33页
3.1.1 先秦沿袭词表分词	第31-32页
3.1.2 人名地名表分词	第32-33页
3.2 互信息获取词汇	第33-34页
3.2.1 统计量的选取	第33页
3.2.2 互信息分词结果	第33-34页
3.3 注疏文献获取词汇	第34-39页
3.3.1 注疏对齐	第34-37页
3.3.2 注疏分词的实现	第37-39页
3.3.3 注疏分词结果	第39页
3.4 基于不同词表的分词对比	第39-42页
3.4.1 各词表分词结果	第39-40页
3.4.2 组合词表分词	第40-41页
3.4.3 存在问题	第41-42页
第4章基于字标注的分词处理	第42-49页
4.1 条件随机场简介	第42-43页
4.1.1 模型概述	第42页
4.1.2 CRF原理	第42-43页
4.1.3 工具包使用	第43页
4.2 标注方法	第43-44页
4.2.1 由字构词	第43页
4.2.2 汉书四词位分词	第43-44页
4.3 特征及模板选择	第44-45页
4.4 分词实验	第45-49页
4.4.1 基于简单的字面信息的分词结果	第45-46页
4.4.2 基于复杂语言特征的分词结果	第46-49页
第5章结论与展望	第49-53页
5.1 研究的总结	第49页
5.2 汉书词汇概貌	第49-52页
5.2.1 词长统计	第49-50页
5.2.2 高频词统计	第50-51页
5.2.3 四字成语统计	第51页
5.2.4 时代特征词统计	第51-52页
5.3 存在问题及展望	第52-53页
附录A	第53-54页
参考文献	第54-59页
致谢	第59-60页