基于N-gram与混合策略的新词识别研究与实现

摘要	第5-6页
ABSTRACT	第6-7页
第一章绪论	第12-19页
1.1 研究背景	第12-13页
1.2 研究现状	第13-17页
1.2.1 基于规则的新词识别方法	第13-14页
1.2.2 基于统计的新词识别方法	第14-16页
1.2.3 基于规则与统计结合的新词识别方法	第16-17页
1.3 研究目标与内容	第17-18页
1.4 论文组织结构	第18-19页
第二章相关技术	第19-30页
2.1 自然语言处理	第19-21页
2.1.1 自然语言处理发展阶段	第19-20页
2.1.2 自然语言处理领域研究方向	第20-21页
2.2 新词的定义与分类	第21-23页
2.2.1 新词的定义	第21页
2.2.2 新词的构词模式与类别	第21-23页
2.3 相关统计基础介绍	第23-28页
2.3.1 N-gram统计模型介绍	第24-26页
2.3.2 互信息	第26-27页
2.3.3 信息熵	第27-28页
2.4 网络爬虫	第28-29页
2.5 本章小结	第29-30页
第三章混合策略的新词识别方法设计与实现	第30-41页
3.1 设计理念	第30-32页
3.2 新词识别总体框架	第32页
3.3 语料库的选取与实现	第32-35页
3.3.1 语料库的选取	第32-33页
3.3.2 语料库的实现	第33-35页
3.4 语料预处理	第35-38页
3.5 候选新词获取	第38页
3.6 停止词过滤	第38-40页
3.7 本章小结	第40-41页
第四章实验结果分析	第41-51页
4.1 实验环境说明	第41页
4.2 实验数据说明	第41-42页
4.3 实验评价指标	第42页
4.4 基于互信息方法的实验结果	第42-43页
4.5 基于信息熵方法的实验结果	第43-44页
4.6 互信息与信息熵方法结合的实验结果	第44-46页
4.7 引入停止词过滤后的实验结果	第46-47页
4.8 部分分词结果展示	第47-48页
4.9 方法总结	第48-49页
4.10 本章小结	第49-51页
第五章总结与展望	第51-53页
参考文献	第53-57页
作者在攻读硕士学位期间相关研究工作	第57-58页
致谢	第58页