基于英汉平行语料的中文分词研究与应用

摘要	第1-5页
Abstract	第5-8页
1 绪论	第8-18页
·研究背景和意义	第8页
·中文分词的技术难点	第8-12页
·中文分词规范问题	第9-10页
·分词歧义处理问题	第10-11页
·未登录词识别问题	第11-12页
·理解与分词先后顺序问题	第12页
·中文分词的研究方法	第12-15页
·基于规则的分词方法	第12-14页
·基于统计的分词方法	第14-15页
·中文分词的发展现状	第15-16页
·本文的组织架构	第16-18页
2 理论基础及统计模型	第18-29页
·隐马尔可夫模型	第18-21页
·模型概要	第18-19页
·隐马尔可夫模型在序列标记中的应用	第19-20页
·隐马尔可夫模型的局限性	第20-21页
·最大熵马尔可夫模型	第21-23页
·模型概要	第21-22页
·最大熵马尔可夫模型在序列标记中的应用	第22页
·标记偏置与长度偏置问题	第22-23页
·条件随机场理论	第23-24页
·生成模型	第24页
·判别模型	第24页
·条件随机场模型	第24-29页
·模型概要	第25-26页
·条件随机场模型的势函数表示	第26-27页
·条件随机场模型在序列标记中的应用	第27页
·条件随机场模型的参数评估	第27-28页
·条件随机场模型的优势与不足	第28-29页
3 英汉平行语料的中文分词系统设计与实现	第29-42页
·基于条件随机场模型的分词方法	第30-34页
·汉字标注分词	第30-31页
·条件随机场模型的分词方法	第31-32页
·语料预处理	第32页
·特征提取	第32-33页
·模型训练	第33-34页
·抽取与修正切分错误的中文字串	第34-39页
·词语相似度模糊匹配算法	第35-37页
·基本算法的缺陷	第37页
·语义相似度模糊匹配的词对齐算法	第37-39页
·修正标记的方法	第39-42页
4 实验结果及评估	第42-49页
·抽取和修正CRF切分错误的中文字串实验	第42-44页
·实验数据说明	第42页
·实验评价参数的定义	第42页
·实验结果评测	第42-44页
·英汉平行语料的中文分词实验	第44-49页
·实验数据说明	第44页
·实验评价参数的定义	第44-45页
·实验结果评测	第45-49页
结论	第49-51页
参考文献	第51-53页
攻读硕士学位期间发表学术论文情况	第53-54页
致谢	第54-55页