古代汉语史书语料库建设的初步研究

摘要	第5-6页
Abstract	第6页
目录	第7-11页
第1章背景与工作介绍	第11-25页
1.1 背景	第11-16页
1.1.1 时代的需求	第11-12页
1.1.2 自然语言处理的内容	第12-14页
1.1.3 自然语言处理的定义	第14-16页
1.2 自然语言处理的历史发展	第16-19页
1.2.1 开创时期	第16-17页
1.2.2 理性主义盛行时期	第17-18页
1.2.3 经验主义复苏时期	第18页
1.2.4 繁荣时期	第18页
1.2.5 研究现状	第18-19页
1.3 语料库	第19-23页
1.3.1 语料库的分类	第19-20页
1.3.2 国外的语料库建设	第20-21页
1.3.3 国内的语料库建设	第21页
1.3.4 国内的古代汉语语料库建设	第21-23页
1.4 本文工作介绍	第23-25页
1.4.1 古代汉语史书语料库建设的一般过程与通用算法	第23-24页
1.4.2 基本的索引与检索工具	第24页
1.4.3 主要算法与数据结构	第24页
1.4.4 系统设计与一整套工具软件的开发	第24页
1.4.5 《资治通鉴》语料库的具体构建	第24-25页
第2章史书语料库建设的流程与算法	第25-39页
2.1 语料的选择	第25-26页
2.2 编码问题	第26-28页
2.2.1 编码的选择	第26-27页
2.2.2 私用汉字编码	第27-28页
2.3 标注格式的确定	第28-29页
2.4 网页文档到粗糙语料的转化	第29-32页
2.5 字符层面的清洁	第32-34页
2.6 断句、断句标点的清洁	第34-38页
2.7 本章小结	第38-39页
第3章语料库的查询	第39-47页
3.1 语料库的基本特点	第39页
3.2 语料库查询的基本问题	第39-41页
3.2.1 检索的基本问题	第41页
3.2.2 语言关系的基本问题	第41页
3.3 统一的解决方案：SAG	第41-46页
3.3.1 基本思想	第41-42页
3.3.2 SAG的基本结构	第42-43页
3.3.3 SAG的基本操作	第43-44页
3.3.4 算法的设计	第44-46页
3.4 本章小结	第46-47页
第4章重要算法与结构	第47-67页
4.1 多模式字符串搜索	第47-52页
4.1.1 Aho-Corasick算法	第47页
4.1.2 改进算法automps	第47-51页
4.1.3 等长多字节编码的处理	第51-52页
4.2 网页正文抽取	第52-53页
4.3 编码字符处理	第53-59页
4.3.1 不等长编码字符获取mixgetter	第53-55页
4.3.2 不等长编码文本遍历iterate_text	第55-56页
4.3.3 字符层面清洁	第56-59页
4.4 语料剖析	第59-64页
4.4.1 剖析至段落层次	第59-61页
4.4.2 段落剖析算法	第61-64页
4.4.3 断句算法	第64页
4.5 SAG-2在GB18030双字节编码下的设计	第64-66页
4.6 本章小结	第66-67页
第5章系统设计	第67-77页
5.1 结构与组织	第67-70页
5.1.1 主要功能模块与语料数据处理过程	第67-68页
5.1.2 系统组织	第68-69页
5.1.3 语料库组织	第69页
5.1.4 应用程序组织	第69-70页
5.2 主要应用程序的设计与算法	第70-72页
5.2.1 htm12txt	第70-71页
5.2.2 wordpurify	第71页
5.2.3 sntcpurify	第71-72页
5.2.4 sntccut	第72页
5.3 语料库建设的操作步骤	第72-73页
5.4 通用性与可移植性考虑	第73-74页
5.5 系统结构组织列表	第74-75页
5.6 本章小结	第75-77页
第6章《资治通鉴》语料库建设与实验	第77-89页
6.1 实例：《资治通鉴》语料库建设	第77-84页
6.1.1 选择《资治通鉴》作为语料	第77-78页
6.1.2 选择GB18030双字节编码	第78页
6.1.3 确定标注格式	第78-80页
6.1.4 网页文档到粗糙语料的转化	第80-82页
6.1.5 字符层面的清洁	第82页
6.1.6 断句、断句标点的清洁	第82-84页
6.2 实验方法	第84-86页
6.2.1 正确性验证	第84-86页
6.2.2 效率验证	第86页
6.3 实验内容与结论	第86-88页
6.3.1 正确性	第86-87页
6.3.2 效率	第87页
6.3.3 实验结论	第87-88页
6.4 工作环境	第88页
6.5 本章小结	第88-89页
第7章总结与展望	第89-91页
7.1 总结	第89-90页
7.2 展望	第90-91页
参考文献	第91-95页
致谢	第95页