基于字词联合解码的中文分词研究

摘要	第1-5页
Abstract	第5-8页
1 绪论	第8-15页
·研究背景与意义	第8-9页
·中文分词技术的难点	第9-11页
·分词规范的不确定性	第9-10页
·未登录词识别问题	第10页
·歧义切分问题	第10-11页
·跨领域的中文分词	第11页
·中文分词主要研究方法	第11-13页
·研究现状	第13页
·本文主要的工作	第13-15页
2 理论基础及统计语言模型	第15-25页
·统计自然语言处理	第15-16页
·隐马尔科夫模型(HMM)	第16-18页
·隐马尔科夫原理	第16-17页
·隐马尔科夫模型在中文分词中的应用	第17-18页
·隐马尔科夫模型的局限性	第18页
·最大熵	第18-20页
·最大熵理论	第18-19页
·最大熵原理	第19-20页
·条件随机场模型	第20-25页
·无向图模型	第20-21页
·条件随机场的无向图结构及其势函数表示	第21-23页
·CRFs的最大似然估计	第23-25页
3 基于CRFs的中文分词	第25-33页
·基于字标注的CRFs中文分词	第25-28页
·标注方法	第25-26页
·特征抽取	第26-28页
·基于词图的CRFs中文分词	第28-31页
·词图在中文分词中的应用	第29-30页
·特征的选择	第30页
·解码方法	第30-31页
·使用CRFs进行中文分词的流程	第31-33页
4 联合字词解码的中文跨领域分词	第33-41页
·联合字词解码的分词算法	第33-34页
·长度偏置	第34-35页
·上下文变量	第35-37页
·利用语义相似信息提高未登录词的识别率	第37-39页
·基于字词联合解码的中文跨领域分词流程	第39-41页
5 实验结果与分析	第41-49页
·实验数据说明和评价标准	第41-42页
·跨领域分词实验结果	第42-47页
·长度偏置对分词结果的影响	第42-43页
·实验结果	第43-44页
·与Sighan Bakeoff 2010成果对比	第44-45页
·实验结果分析	第45-47页
·基于字的CRFs与字词联合解码的结果的比较	第47-48页
·方法讨论	第48-49页
结论	第49-50页
参考文献	第50-54页
攻读硕士学位期间发表学术论文情况	第54-55页
致谢	第55-56页