基于半监督隐马尔科夫的汉语词性标注研究

摘要	第4-5页
Abstract	第5页
1 绪论	第8-17页
1.1 词性标注任务描述	第8-9页
1.2 相关背景及研究现状	第9-12页
1.2.1 背景及意义	第9页
1.2.2 研究方法	第9-11页
1.2.3 研究现状	第11-12页
1.3 研究难点	第12-16页
1.3.1 兼类词的选择	第12-14页
1.3.2 未登录词的标注	第14-15页
1.3.3 金标语料资源匮乏	第15-16页
1.3.4 数据稀疏	第16页
1.4 本文的工作	第16-17页
2 理论背景及相关模型	第17-26页
2.1 语言模型	第17-18页
2.1.1 统计语言模型的概念	第17页
2.1.2 N元语法模型	第17-18页
2.2 序列标注	第18-19页
2.3 隐马尔科夫模型	第19-23页
2.3.1 隐马尔科夫基本原理	第19-21页
2.3.2 维特比算法	第21-23页
2.4 词向量及聚类算法	第23-25页
2.4.1 word2vec模型简介	第23-24页
2.4.2 K-means算法	第24页
2.4.3 K近邻算法	第24-25页
2.5 词性标注集	第25-26页
3 半监督隐马尔科夫词性标注模型	第26-37页
3.1 词性标注总体流程	第26-27页
3.2 模型的具体实现	第27-30页
3.2.1 隐马尔科夫模型参数的获取	第27-28页
3.2.2 半监督学习	第28页
3.2.3 未登录词的处理	第28-29页
3.2.4 词性标注	第29-30页
3.3 实验	第30-35页
3.3.1 实验语料	第30-31页
3.3.2 各阶段结果对比	第31-33页
3.3.3 不同实验方法的对比	第33-34页
3.3.4 实验结果分析	第34-35页
3.4 本章小结	第35-37页
4 不同领域语料的词性标注	第37-49页
4.1 迁移学习	第38-39页
4.2 低频未登录词的词性选择	第39-41页
4.3 数据平滑	第41-42页
4.4 实验	第42-47页
4.4.1 实验整体流程	第42-43页
4.4.2 实验语料的获取	第43-44页
4.4.3 迁移学习用于词性标注	第44页
4.4.4 低频未登录词的标注效果	第44-46页
4.4.5 实验结果分析	第46-47页
4.5 本章小结	第47-49页
结论	第49-50页
参考文献	第50-53页
攻读硕士学位期间发表学术论文情况	第53-54页
致谢	第54-55页