首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于半监督隐马尔科夫的汉语词性标注研究

摘要第4-5页
Abstract第5页
1 绪论第8-17页
    1.1 词性标注任务描述第8-9页
    1.2 相关背景及研究现状第9-12页
        1.2.1 背景及意义第9页
        1.2.2 研究方法第9-11页
        1.2.3 研究现状第11-12页
    1.3 研究难点第12-16页
        1.3.1 兼类词的选择第12-14页
        1.3.2 未登录词的标注第14-15页
        1.3.3 金标语料资源匮乏第15-16页
        1.3.4 数据稀疏第16页
    1.4 本文的工作第16-17页
2 理论背景及相关模型第17-26页
    2.1 语言模型第17-18页
        2.1.1 统计语言模型的概念第17页
        2.1.2 N元语法模型第17-18页
    2.2 序列标注第18-19页
    2.3 隐马尔科夫模型第19-23页
        2.3.1 隐马尔科夫基本原理第19-21页
        2.3.2 维特比算法第21-23页
    2.4 词向量及聚类算法第23-25页
        2.4.1 word2vec模型简介第23-24页
        2.4.2 K-means算法第24页
        2.4.3 K近邻算法第24-25页
    2.5 词性标注集第25-26页
3 半监督隐马尔科夫词性标注模型第26-37页
    3.1 词性标注总体流程第26-27页
    3.2 模型的具体实现第27-30页
        3.2.1 隐马尔科夫模型参数的获取第27-28页
        3.2.2 半监督学习第28页
        3.2.3 未登录词的处理第28-29页
        3.2.4 词性标注第29-30页
    3.3 实验第30-35页
        3.3.1 实验语料第30-31页
        3.3.2 各阶段结果对比第31-33页
        3.3.3 不同实验方法的对比第33-34页
        3.3.4 实验结果分析第34-35页
    3.4 本章小结第35-37页
4 不同领域语料的词性标注第37-49页
    4.1 迁移学习第38-39页
    4.2 低频未登录词的词性选择第39-41页
    4.3 数据平滑第41-42页
    4.4 实验第42-47页
        4.4.1 实验整体流程第42-43页
        4.4.2 实验语料的获取第43-44页
        4.4.3 迁移学习用于词性标注第44页
        4.4.4 低频未登录词的标注效果第44-46页
        4.4.5 实验结果分析第46-47页
    4.5 本章小结第47-49页
结论第49-50页
参考文献第50-53页
攻读硕士学位期间发表学术论文情况第53-54页
致谢第54-55页

论文共55页,点击 下载论文
上一篇:XLPE电缆在线监测系统的研究与设计
下一篇:基于局部特征信息的图像配准技术研究