首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

面向社会媒体的中文文本校对方法研究与实现

中文摘要第4-5页
Abstract第5-6页
第1章 绪论第10-19页
    1.1 研究目的和意义第10-11页
    1.2 英文文本校对的研究现状第11-13页
    1.3 中文社会媒体文本校对的研究现状第13-16页
        1.3.1 中文错别字校对的研究现状第13-15页
        1.3.2 中文谐音词语校对的研究现状第15页
        1.3.3 中文社会媒体文本校对研究存在的主要问题第15-16页
    1.4 本文主要研究内容第16-17页
    1.5 本文的组织安排第17-19页
第2章 社会媒体文本错误词语分析第19-27页
    2.1 引言第19页
    2.2 社会媒体文本特点第19-20页
    2.3 实验语料库第20-22页
    2.4 社会媒体文本中的错别字第22-26页
        2.4.1 音近错别字第23-24页
        2.4.2 形近错别字第24-25页
        2.4.3 谐音词第25-26页
    2.5 本章小结第26-27页
第3章 基于N-gram的汉语社会媒体文本校对第27-46页
    3.1 引言第27-28页
    3.2 基于N-gram的汉语文本校对总体框架第28-29页
    3.3 错别字正字候选构造第29-34页
        3.3.1 基于音素的错别字候选构建第31-33页
        3.3.2 基于形近字表的错别字候选构建第33-34页
    3.4 谐音校对候选构造第34-35页
    3.5 语言解码第35-38页
        3.5.1 n-gram语言模型第35-36页
        3.5.2 错别字/谐音词语解码第36-38页
    3.6 实验结果与分析第38-45页
        3.6.1 实验数据和评价指标第38-39页
        3.6.2 语言模型训练工具第39-40页
        3.6.3 错别字正字候选构造对校对性能的影响第40-41页
        3.6.4 基于N-gram的错别字校对实验结果第41-43页
        3.6.5 谐音词语还原实验结果第43-45页
    3.7 本章小结第45-46页
第4章 基于语义相似度的汉语文本校对第46-64页
    4.1 引言第46-47页
    4.2 基于语义相似度的文本校对任务描述第47-48页
    4.3 校对的词向量模型第48-50页
        4.3.1 词向量模型第48-49页
        4.3.2 候选的词向量表示第49页
        4.3.3 校对上下文的词向量表示第49-50页
    4.4 校对语义相似度计算第50-52页
    4.5 实验结果与分析第52-63页
        4.5.1 实验设置第52页
        4.5.2 系统参数第52-56页
        4.5.3 不同语义相似度计算方法对错别字校对性能的影响第56-57页
        4.5.4 不同词向量模型对错别字校对性能的影响第57-61页
        4.5.5 谐音词语校对实验第61-62页
        4.5.6 基于n-gram与基于语义相似度的文本校对方法对比第62-63页
    4.6 本章小结第63-64页
结论第64-66页
参考文献第66-72页
致谢第72-73页
攻读硕士学位期间发表的学术论文及参加的科研项目第73页

论文共73页,点击 下载论文
上一篇:麦家小说艺术语言研究
下一篇:库伦旗蒙古族佛教信仰现状研究