首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--模式识别与装置论文

基于大规模语料库的中文新词识别

摘要第1-5页
Abstract第5-8页
1 绪论第8-15页
   ·问题的提出第8页
   ·新词的定义和分类第8-10页
     ·新词的定义第8-9页
     ·新词的分类第9-10页
   ·新词识别的难点第10页
   ·新词识别的研究现状第10-13页
     ·基于规则的方法第11页
     ·基于统计的方法第11-12页
     ·统计与规则结合的方法第12-13页
   ·本文的组织第13-15页
2 相关理论和新词构成模式的分析第15-28页
   ·统计自然语言处理第15-16页
   ·语料库语言学第16-17页
   ·统计模型概述第17-20页
   ·互信息基本理论第20-25页
     ·随机变量第20-21页
     ·熵、联合熵、条件熵第21-23页
     ·互信息第23-25页
   ·新词构成模式分析第25-28页
     ·单字串模式第26-27页
     ·后缀模式第27页
     ·其它模式第27-28页
3 单字串模式的新词识别第28-42页
   ·潜在新词的收集和过滤第28-34页
     ·潜在新词的收集第28-33页
     ·串频过滤和子串归并第33页
     ·垃圾串过滤第33-34页
   ·平均互信息第34-35页
   ·局部二元模型第35-40页
     ·局部二元模型的相关定义第35-38页
     ·利用局部二元模型识别新词第38-40页
   ·实验的设计第40-42页
     ·所需资源的获取第40-41页
     ·单字串模式新词识别流程第41-42页
4 后缀模式的新词识别第42-45页
   ·后缀集合的选取第42-43页
   ·后缀模式新词识别流程第43-45页
5 实验结果和错误分析第45-53页
   ·评价指标第45页
   ·单字串模式新词识别实验结果和分析第45-50页
   ·后缀模式新词识别实验结果和分析第50-53页
结论第53-54页
参考文献第54-56页
附录A 北京大学2003版标注集第56-60页
攻读硕士学位期间发表学术论文情况第60-61页
致谢第61-62页

论文共62页,点击 下载论文
上一篇:重力梯度仪信号处理方法仿真研究
下一篇:我国行政执法方式研究