首页--文化、科学、教育、体育论文--科学、科学研究论文--情报学、情报工作论文--情报检索论文

基于CRF的古籍地名自动识别研究--以《三国演义》为例

摘要第1-4页
ABSTRACT第4-9页
1 绪论第9-13页
   ·本文的研究目的与意义第9页
   ·相关的基础理论和研究背景第9-12页
     ·自然语言理解第9-10页
     ·古籍信息化的研究现状第10-12页
   ·本文的结构和主要内容第12-13页
2 中文命名实体的识别及其方法第13-19页
   ·中文命名实体识别的概念和意义第13页
   ·命名实体识别的方法第13-19页
     ·基于规则的方法第13-14页
     ·基于统计的方法第14-19页
       ·问题的形式化描述第14-15页
       ·隐马尔可夫模型第15-16页
       ·最大熵分类模型第16-17页
       ·条件概率模型第17-19页
3 CRF 理论及其在命名实体识别(NER)上的应用第19-23页
   ·CRF 模型第19-20页
     ·CRF 的定义第19页
     ·模型的数学表示第19-20页
   ·基于 CRF 模型的命名实体识别第20-23页
     ·标注粒度和体系的分析选择第20-21页
     ·基本特征函数集第21-23页
       ·特征函数的表示第21-22页
       ·内部特征第22-23页
4 基于CRF模型的古籍地名自动识别——以《三国演义》为例第23-42页
   ·系统结构第23-24页
     ·系统框架第23页
     ·模块说明第23-24页
   ·实验条件第24页
   ·实验设计第24-42页
     ·训练语料的预处理和模型生成第24-31页
   (1) 原始语料“三国.txt”的校对、清理,得到“三国.txt”第24-25页
   (2) 人工地名第25-26页
   (3) 去除行号、章回标记并改正文本中的英文标点符号第26-27页
   (4) 用orig2crf 函数对“sg.txt”进行BIEO 标注,得到训练语料“train.txt ”第27-29页
   (5) 用check_format 函数对训练语料“train.txt”进行格式检验第29-30页
   (6) 用CRFModel.cpp 函数让CRF 对“train.txt”进行模型训练,生成Model第30-31页
     ·测试语料的预处理和模型标注以及实验评测第31-40页
   (7) 用remove_tags 函数将“sg.txt”中的/ns 标记去掉,生成测试文件“test.txt”第31-33页
   (8) 再用norm2crftest 函数把测试文件转成测试语料“test.txt.test”第33-34页
   (9) 用model 文件对“test.txt.test”进行地名标注,得到“test.txt.crf”第34页
   (10) 用 crfseg2norm函数把“test.txt.crf”中的BIEO 标注转变成/ns 标记,得到“result.txt”第34-36页
   (11) 用评测程序将“sg.txt”和“result.txt”进行对比,得到准确率第36-40页
     ·最终的地名自动识别数据表的生成第40-42页
   (12) 用“把229 行注释掉的Format.cpp”把“result.txt”中含/ns 的地名提取出来第40-41页
   (13) 用EditPlus 将“result”中的空格和重复的地名去掉,经过整理分栏得到最后我们想要的结果——《三国演义》地名自动识别数据表第41-42页
5 结束语第42-44页
   ·总结第42页
   ·展望第42-44页
附录:《三国演义》地名自动识别数据表第44-50页
参考文献第50-54页
致谢第54-55页
攻读学位期间发表的学术论文目录第55页

论文共55页,点击 下载论文
上一篇:圆填充的Thurston与进化策略算法
下一篇:语料处理软件的设计与实现