基于CRF的古籍地名自动识别研究--以《三国演义》为例

摘要	第1-4页
ABSTRACT	第4-9页
1 绪论	第9-13页
·本文的研究目的与意义	第9页
·相关的基础理论和研究背景	第9-12页
·自然语言理解	第9-10页
·古籍信息化的研究现状	第10-12页
·本文的结构和主要内容	第12-13页
2 中文命名实体的识别及其方法	第13-19页
·中文命名实体识别的概念和意义	第13页
·命名实体识别的方法	第13-19页
·基于规则的方法	第13-14页
·基于统计的方法	第14-19页
·问题的形式化描述	第14-15页
·隐马尔可夫模型	第15-16页
·最大熵分类模型	第16-17页
·条件概率模型	第17-19页
3 CRF 理论及其在命名实体识别（NER）上的应用	第19-23页
·CRF 模型	第19-20页
·CRF 的定义	第19页
·模型的数学表示	第19-20页
·基于 CRF 模型的命名实体识别	第20-23页
·标注粒度和体系的分析选择	第20-21页
·基本特征函数集	第21-23页
·特征函数的表示	第21-22页
·内部特征	第22-23页
4 基于CRF模型的古籍地名自动识别——以《三国演义》为例	第23-42页
·系统结构	第23-24页
·系统框架	第23页
·模块说明	第23-24页
·实验条件	第24页
·实验设计	第24-42页
·训练语料的预处理和模型生成	第24-31页
（1）原始语料“三国.txt”的校对、清理,得到“三国.txt”	第24-25页
（2）人工地名	第25-26页
（3）去除行号、章回标记并改正文本中的英文标点符号	第26-27页
（4）用orig2crf 函数对“sg.txt”进行BIEO 标注，得到训练语料“train.txt ”	第27-29页
（5）用check_format 函数对训练语料“train.txt”进行格式检验	第29-30页
（6）用CRFModel.cpp 函数让CRF 对“train.txt”进行模型训练，生成Model	第30-31页
·测试语料的预处理和模型标注以及实验评测	第31-40页
（7）用remove_tags 函数将“sg.txt”中的/ns 标记去掉,生成测试文件“test.txt”	第31-33页
（8）再用norm2crftest 函数把测试文件转成测试语料“test.txt.test”	第33-34页
（9）用model 文件对“test.txt.test”进行地名标注，得到“test.txt.crf”	第34页
（10）用 crfseg2norm函数把“test.txt.crf”中的BIEO 标注转变成/ns 标记,得到“result.txt”	第34-36页
（11）用评测程序将“sg.txt”和“result.txt”进行对比，得到准确率	第36-40页
·最终的地名自动识别数据表的生成	第40-42页
（12）用“把229 行注释掉的Format.cpp”把“result.txt”中含/ns 的地名提取出来	第40-41页
（13）用EditPlus 将“result”中的空格和重复的地名去掉，经过整理分栏得到最后我们想要的结果——《三国演义》地名自动识别数据表	第41-42页
5 结束语	第42-44页
·总结	第42页
·展望	第42-44页
附录：《三国演义》地名自动识别数据表	第44-50页
参考文献	第50-54页
致谢	第54-55页
攻读学位期间发表的学术论文目录	第55页