中文新词识别研究

摘要	第1-5页
Abstract	第5-9页
1 绪论	第9-16页
·研究背景与意义	第9-10页
·新词的定义与特征	第10-12页
·新词的定义	第10-11页
·新词的特征	第11-12页
·新词识别的现状	第12-14页
·基于规则的方法	第12-13页
·基于统计的方法	第13页
·统计与规则相结合的方法	第13-14页
·新词识别的难点	第14页
·主要工作与本文组织	第14-16页
2 相关理论及新词模式分析	第16-30页
·自然语言处理概述	第16-18页
·自然语言处理的研究与发展	第16-17页
·自然语言处理研究的内容与难点	第17-18页
·统计语言模型概述	第18-20页
·中文分词概述	第20-21页
·中文分词中的基本问题	第20-21页
·中文分词的基本方法	第21页
·熵与互信息	第21-24页
·新词的类型与模式分析	第24-29页
·单字串模式新词	第26-27页
·后缀串模式新词	第27-28页
·其他模式新词	第28-29页
·本章小结	第29-30页
3 基于规则的新词抽取	第30-38页
·语料的预处理与分词标注	第30-31页
·网页预处理	第30页
·语料的分词和词性标注	第30-31页
·重复串及相关信息的收集	第31-36页
·重复串的收集	第31-32页
·重复串上下文信息的收集	第32-33页
·重复串及相关信息收集算法描述	第33-36页
·规则过滤	第36-37页
·基于频率的过滤规则	第36页
·基于停用词表的过滤规则	第36页
·基于词性的过滤规则	第36-37页
·本章小结	第37-38页
4 基于统计模型的新词识别	第38-48页
·内部词概率	第38-40页
·后缀串模式的识别	第40-42页
·基于平均互信息的新词识别	第42-43页
·基于左右信息嫡的新词识别	第43-45页
·新词识别的流程	第45-47页
·本章小结	第47-48页
5 实验结果与分析	第48-55页
·实验数据说明	第48页
·实验评价指标	第48-49页
·新词识别结果分析	第49-52页
·平均互信息的新词识别	第49-50页
·左右信息嫡的新词识别	第50-51页
·平均互信息与左右信息嫡相结合的新词识别	第51-52页
·错误分析	第52-54页
·与前人工作的比较	第54页
·本章小结	第54-55页
结论	第55-56页
参考文献	第56-59页
攻读硕士学位期间发表学术论文情况	第59-60页
致谢	第60-61页