首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于字词联合解码的中文分词研究

摘要第1-5页
Abstract第5-8页
1 绪论第8-15页
   ·研究背景与意义第8-9页
   ·中文分词技术的难点第9-11页
     ·分词规范的不确定性第9-10页
     ·未登录词识别问题第10页
     ·歧义切分问题第10-11页
     ·跨领域的中文分词第11页
   ·中文分词主要研究方法第11-13页
   ·研究现状第13页
   ·本文主要的工作第13-15页
2 理论基础及统计语言模型第15-25页
   ·统计自然语言处理第15-16页
   ·隐马尔科夫模型(HMM)第16-18页
     ·隐马尔科夫原理第16-17页
     ·隐马尔科夫模型在中文分词中的应用第17-18页
     ·隐马尔科夫模型的局限性第18页
   ·最大熵第18-20页
     ·最大熵理论第18-19页
     ·最大熵原理第19-20页
   ·条件随机场模型第20-25页
     ·无向图模型第20-21页
     ·条件随机场的无向图结构及其势函数表示第21-23页
     ·CRFs的最大似然估计第23-25页
3 基于CRFs的中文分词第25-33页
   ·基于字标注的CRFs中文分词第25-28页
     ·标注方法第25-26页
     ·特征抽取第26-28页
   ·基于词图的CRFs中文分词第28-31页
     ·词图在中文分词中的应用第29-30页
     ·特征的选择第30页
     ·解码方法第30-31页
   ·使用CRFs进行中文分词的流程第31-33页
4 联合字词解码的中文跨领域分词第33-41页
   ·联合字词解码的分词算法第33-34页
   ·长度偏置第34-35页
   ·上下文变量第35-37页
   ·利用语义相似信息提高未登录词的识别率第37-39页
   ·基于字词联合解码的中文跨领域分词流程第39-41页
5 实验结果与分析第41-49页
   ·实验数据说明和评价标准第41-42页
   ·跨领域分词实验结果第42-47页
     ·长度偏置对分词结果的影响第42-43页
     ·实验结果第43-44页
     ·与Sighan Bakeoff 2010成果对比第44-45页
     ·实验结果分析第45-47页
   ·基于字的CRFs与字词联合解码的结果的比较第47-48页
   ·方法讨论第48-49页
结论第49-50页
参考文献第50-54页
攻读硕士学位期间发表学术论文情况第54-55页
致谢第55-56页

论文共56页,点击 下载论文
上一篇:特定领域中文术语抽取
下一篇:基于XQuery的XBRL查询优化研究及应用