基于大规模语料库的中文新词识别
摘要 | 第1-5页 |
Abstract | 第5-8页 |
1 绪论 | 第8-15页 |
·问题的提出 | 第8页 |
·新词的定义和分类 | 第8-10页 |
·新词的定义 | 第8-9页 |
·新词的分类 | 第9-10页 |
·新词识别的难点 | 第10页 |
·新词识别的研究现状 | 第10-13页 |
·基于规则的方法 | 第11页 |
·基于统计的方法 | 第11-12页 |
·统计与规则结合的方法 | 第12-13页 |
·本文的组织 | 第13-15页 |
2 相关理论和新词构成模式的分析 | 第15-28页 |
·统计自然语言处理 | 第15-16页 |
·语料库语言学 | 第16-17页 |
·统计模型概述 | 第17-20页 |
·互信息基本理论 | 第20-25页 |
·随机变量 | 第20-21页 |
·熵、联合熵、条件熵 | 第21-23页 |
·互信息 | 第23-25页 |
·新词构成模式分析 | 第25-28页 |
·单字串模式 | 第26-27页 |
·后缀模式 | 第27页 |
·其它模式 | 第27-28页 |
3 单字串模式的新词识别 | 第28-42页 |
·潜在新词的收集和过滤 | 第28-34页 |
·潜在新词的收集 | 第28-33页 |
·串频过滤和子串归并 | 第33页 |
·垃圾串过滤 | 第33-34页 |
·平均互信息 | 第34-35页 |
·局部二元模型 | 第35-40页 |
·局部二元模型的相关定义 | 第35-38页 |
·利用局部二元模型识别新词 | 第38-40页 |
·实验的设计 | 第40-42页 |
·所需资源的获取 | 第40-41页 |
·单字串模式新词识别流程 | 第41-42页 |
4 后缀模式的新词识别 | 第42-45页 |
·后缀集合的选取 | 第42-43页 |
·后缀模式新词识别流程 | 第43-45页 |
5 实验结果和错误分析 | 第45-53页 |
·评价指标 | 第45页 |
·单字串模式新词识别实验结果和分析 | 第45-50页 |
·后缀模式新词识别实验结果和分析 | 第50-53页 |
结论 | 第53-54页 |
参考文献 | 第54-56页 |
附录A 北京大学2003版标注集 | 第56-60页 |
攻读硕士学位期间发表学术论文情况 | 第60-61页 |
致谢 | 第61-62页 |