首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于英汉平行语料的中文分词研究与应用

摘要第1-5页
Abstract第5-8页
1 绪论第8-18页
   ·研究背景和意义第8页
   ·中文分词的技术难点第8-12页
     ·中文分词规范问题第9-10页
     ·分词歧义处理问题第10-11页
     ·未登录词识别问题第11-12页
     ·理解与分词先后顺序问题第12页
   ·中文分词的研究方法第12-15页
     ·基于规则的分词方法第12-14页
     ·基于统计的分词方法第14-15页
   ·中文分词的发展现状第15-16页
   ·本文的组织架构第16-18页
2 理论基础及统计模型第18-29页
   ·隐马尔可夫模型第18-21页
     ·模型概要第18-19页
     ·隐马尔可夫模型在序列标记中的应用第19-20页
     ·隐马尔可夫模型的局限性第20-21页
   ·最大熵马尔可夫模型第21-23页
     ·模型概要第21-22页
     ·最大熵马尔可夫模型在序列标记中的应用第22页
     ·标记偏置与长度偏置问题第22-23页
   ·条件随机场理论第23-24页
     ·生成模型第24页
     ·判别模型第24页
   ·条件随机场模型第24-29页
     ·模型概要第25-26页
     ·条件随机场模型的势函数表示第26-27页
     ·条件随机场模型在序列标记中的应用第27页
     ·条件随机场模型的参数评估第27-28页
     ·条件随机场模型的优势与不足第28-29页
3 英汉平行语料的中文分词系统设计与实现第29-42页
   ·基于条件随机场模型的分词方法第30-34页
     ·汉字标注分词第30-31页
     ·条件随机场模型的分词方法第31-32页
     ·语料预处理第32页
     ·特征提取第32-33页
     ·模型训练第33-34页
   ·抽取与修正切分错误的中文字串第34-39页
     ·词语相似度模糊匹配算法第35-37页
     ·基本算法的缺陷第37页
     ·语义相似度模糊匹配的词对齐算法第37-39页
   ·修正标记的方法第39-42页
4 实验结果及评估第42-49页
   ·抽取和修正CRF切分错误的中文字串实验第42-44页
     ·实验数据说明第42页
     ·实验评价参数的定义第42页
     ·实验结果评测第42-44页
   ·英汉平行语料的中文分词实验第44-49页
     ·实验数据说明第44页
     ·实验评价参数的定义第44-45页
     ·实验结果评测第45-49页
结论第49-51页
参考文献第51-53页
攻读硕士学位期间发表学术论文情况第53-54页
致谢第54-55页

论文共55页,点击 下载论文
上一篇:基于单幅光栅投影的物体三维重构
下一篇:基于3G应用的智能车载系统