首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

微信公众号文本的类别标注方法研究

致谢第5-6页
摘要第6-7页
ABSTRACT第7-8页
1 引言第12-18页
    1.1 研究背景与意义第12-13页
    1.2 国内外研究现状第13-15页
        1.2.1 文本表示第13-14页
        1.2.2 分类算法第14-15页
    1.3 研究内容与工作第15-16页
    1.4 论文组织结构第16-18页
2 相关背景知识第18-32页
    2.1 文本标注流程第18-19页
    2.2 文本预处理第19-22页
        2.2.1 分词第20页
        2.2.2 去停用词第20-21页
        2.2.3 垃圾过滤第21页
        2.2.4 短文本扩展第21-22页
    2.3 文本向量表示方法第22-25页
        2.3.1 词嵌入模型第22-24页
        2.3.2 概率主题模型第24-25页
    2.4 文本分类算法第25-30页
        2.4.1 一般的基于机器学习的文本分类方法第26-28页
        2.4.2 其他基于机器学习的文本分类方法第28-30页
    2.5 标注方法第30-31页
        2.5.1 人工标注第30页
        2.5.2 自动标注第30-31页
        2.5.3 自动标注与人工修正第31页
    2.6 本章小结第31-32页
3 主题-词嵌入模型的文本表示方法第32-58页
    3.1 符号和术语第32-33页
    3.2 主题模型第33-37页
        3.2.1 超参数设置第34-37页
    3.3 词向量模型第37-44页
        3.3.1 输入层第38页
        3.3.2 隐藏层第38-39页
        3.3.3 输出层及权重更新第39-41页
        3.3.4 分层softmax优化第41-44页
    3.4 主题词向量嵌入模型第44-46页
        3.4.1 TWE第44-46页
        3.4.2 优化和参数估计第46页
        3.4.3 时间复杂度分析第46页
    3.5 实验与分析第46-56页
        3.5.1 数据集第47页
        3.5.2 实验设置第47-48页
        3.5.3 对比方法第48页
        3.5.4 评价方法第48-49页
        3.5.5 对比结果与分析第49-52页
        3.5.6 混淆矩阵分析第52-55页
        3.5.7 实验结论第55-56页
    3.6 本章小结第56-58页
4 基于知识库与半监督的标注方法第58-74页
    4.1 半监督分类第58-63页
        4.1.1 拉格朗日半监督支持向量机第60-62页
        4.1.2 无标签数据划分第62-63页
        4.1.3 处理超参数第63页
    4.2 公众号类别知识库搭建方法第63-67页
        4.2.1 知识库初始化第64-65页
        4.2.2 知识库扩展第65-67页
    4.3 基于公众号类别知识库的标注方法第67-68页
    4.4 实验与分析第68-71页
        4.4.1 数据集、实验环境和开发环境第68-69页
        4.4.2 实验设置第69页
        4.4.3 实验结果第69-71页
    4.5 本章小结第71-74页
5 结论与展望第74-76页
    5.1 总结第74-75页
    5.2 展望第75-76页
参考文献第76-82页
作者简历及攻读硕士学位期间取得的研究成果第82-86页
学位论文数据集第86页

论文共86页,点击 下载论文
上一篇:基于卷积神经网络的颜色测量模型及对中小规模样本处理策略的研究
下一篇:基于Spark的可扩展的数字信号处理算法库的设计与实现