基于大规模语料库的中文新词识别

摘要	第1-5页
Abstract	第5-8页
1 绪论	第8-15页
·问题的提出	第8页
·新词的定义和分类	第8-10页
·新词的定义	第8-9页
·新词的分类	第9-10页
·新词识别的难点	第10页
·新词识别的研究现状	第10-13页
·基于规则的方法	第11页
·基于统计的方法	第11-12页
·统计与规则结合的方法	第12-13页
·本文的组织	第13-15页
2 相关理论和新词构成模式的分析	第15-28页
·统计自然语言处理	第15-16页
·语料库语言学	第16-17页
·统计模型概述	第17-20页
·互信息基本理论	第20-25页
·随机变量	第20-21页
·熵、联合熵、条件熵	第21-23页
·互信息	第23-25页
·新词构成模式分析	第25-28页
·单字串模式	第26-27页
·后缀模式	第27页
·其它模式	第27-28页
3 单字串模式的新词识别	第28-42页
·潜在新词的收集和过滤	第28-34页
·潜在新词的收集	第28-33页
·串频过滤和子串归并	第33页
·垃圾串过滤	第33-34页
·平均互信息	第34-35页
·局部二元模型	第35-40页
·局部二元模型的相关定义	第35-38页
·利用局部二元模型识别新词	第38-40页
·实验的设计	第40-42页
·所需资源的获取	第40-41页
·单字串模式新词识别流程	第41-42页
4 后缀模式的新词识别	第42-45页
·后缀集合的选取	第42-43页
·后缀模式新词识别流程	第43-45页
5 实验结果和错误分析	第45-53页
·评价指标	第45页
·单字串模式新词识别实验结果和分析	第45-50页
·后缀模式新词识别实验结果和分析	第50-53页
结论	第53-54页
参考文献	第54-56页
附录A 北京大学2003版标注集	第56-60页
攻读硕士学位期间发表学术论文情况	第60-61页
致谢	第61-62页