《左传》《史记》同事异文自动发现及分析

摘要	第3-4页
ABSTRACT	第4页
第一章绪论	第9-17页
1.1 课题来源	第9-11页
1.1.1 同事异文的定义	第9页
1.1.2 同事异文的检索技术	第9-10页
1.1.3 本文的实验语料来源	第10-11页
1.2 研究意义	第11-12页
1.2.1 探究古籍本身的校勘意义	第11页
1.2.2 语言学研究的训诂意义	第11-12页
1.2.3 古籍数字化处理的时代意义	第12页
1.3 研究现状	第12-15页
1.3.1 古籍非版本异文的研究现状	第12-14页
1.3.2 句子相似度计算的研究现状	第14-15页
1.4 研究内容	第15-16页
1.5 组织结构	第16-17页
第二章汉语句子相似度算法研究	第17-26页
2.1 句子相似度定义	第17页
2.2 汉语句子相似度计算难点	第17-19页
2.2.1 汉语句子信息处理难点	第18页
2.2.2 古代汉语语料处理难点	第18-19页
2.3 常用的汉语句子相似度算法	第19-23页
2.3.1 基于向量空间模型的TF-IDF方法	第19-20页
2.3.2 基于语义特征的语义词典方法	第20-21页
2.3.3 基于句法特征的依存树方法	第21-22页
2.3.4 算法比较	第22-23页
2.4 编辑距离算法研究	第23-26页
2.4.1 算法简介	第23页
2.4.2 算法现状	第23-25页
2.4.3 存在的主要问题	第25-26页
第三章基于经典编辑距离算法的同事异文发现	第26-41页
3.1 实验语料介绍	第26页
3.2 实验语料预处理及分析	第26-31页
3.2.1 断句处理	第26-27页
3.2.2 句珠对抽取	第27-29页
3.2.3 句珠对抽取原则	第29-30页
3.2.4 句珠对分布特点	第30-31页
3.3 经典编辑距离阈值计算算法	第31-35页
3.3.1 实验流程	第31-32页
3.3.2 算法实验	第32-34页
3.3.3 实验结果分析	第34-35页
3.4 经典编辑距离语义相似度计算算法	第35-41页
3.4.1 相似度转换	第35-36页
3.4.2 实验流程	第36页
3.4.3 算法实验	第36-38页
3.4.4 实验结果分析	第38-41页
第四章基于改进编辑距离算法及事件信息标注的同事异文发现	第41-54页
4.1 改进操作权重的编辑距离算法	第41-46页
4.1.1 编辑操作基础权重设置	第41-42页
4.1.2 字词操作单元权重设置	第42-44页
4.1.3 改进算法实验	第44-46页
4.1.4 实验结果分析	第46页
4.2 事件信息标注	第46-49页
4.2.1 事件信息标注定义	第46-47页
4.2.2 事件信息数据库	第47-48页
4.2.3 标注实验	第48-49页
4.2.4 存在的问题	第49页
4.3 基于改进编辑距离算法以及事件信息标注的同事异文发现	第49-54页
4.3.1 改进编辑距离语义相似度公式	第50页
4.3.2 改进算法实验	第50-52页
4.3.3 实验结果分析	第52-54页
第五章同事异文自动识别结果分析	第54-60页
5.1 同事异文自动识别的几种类型	第54-57页
5.1.1 用字层面	第54-55页
5.1.2 用词层面	第55-56页
5.1.3 用句层面	第56-57页
5.2 《左传》和《史记》的语言风格分析	第57-58页
5.2.1 《左传》的省用现象	第57页
5.2.2 《史记》复音词的增多	第57-58页
5.2.3 《史记》的语义复现现象	第58页
5.3 本文工作的不足之处	第58-60页
5.3.1 操作权重阈值比较主观	第58-59页
5.3.2 大量噪声数据难以剔除	第59页
5.3.3 事件信息标注没有消歧	第59-60页
总结与展望	第60-61页
附录	第61-63页
参考文献	第63-66页
致谢	第66页