首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

短文本分类语料库的构建及分类方法的研究

摘要第3-5页
Abstract第5-6页
第一章 绪论第9-15页
    1.1 研究背景及意义第9-10页
    1.2 国内外研究现状第10-12页
        1.2.1 文本分类国外研究概况第10-11页
        1.2.2 文本分类国内研究概况第11-12页
    1.3 本文主要工作第12-13页
    1.4 本文组织结构第13-14页
    1.5 本章小结第14-15页
第二章 短文本分类相关理论第15-27页
    2.1 文本分类流程第15-16页
    2.2 文本预处理第16页
    2.3 主题模型第16-21页
        2.3.1 LSI模型第17-18页
        2.3.2 PLSI主题模型第18页
        2.3.3     LDA主题模型第18-19页
        2.3.4 BTM主题模型第19-21页
    2.4 特征提取第21-23页
        2.4.1 文档频率第21页
        2.4.2 信息增益第21-22页
        2.4.3 互信息第22页
        2.4.4 卡方统计第22页
        2.4.5 期望交叉熵第22-23页
        2.4.6 特征强度第23页
    2.5 特征权重计算第23-26页
        2.5.1 布尔权重第23-24页
        2.5.2 词频权重第24页
        2.5.3 TF-IDF权重第24-25页
        2.5.4 熵值权重第25-26页
    2.6 本章小结第26-27页
第三章 短文本分类语料库构建及相关理论第27-40页
    3.1 语料库建设基本情况第27-28页
    3.2 短文本语料库设计第28-32页
        3.2.1 语料抓取第28-31页
        3.2.2 语料库整体结构第31-32页
    3.3 语料库的加工处理第32-36页
        3.3.1 分词及停用词处理第32-34页
        3.3.2 主题提取第34-35页
        3.3.3 类别标注第35-36页
    3.4 词典及专业通用词集分析第36-38页
        3.4.1 词典说明第36-37页
        3.4.2 各领域专用词集第37页
        3.4.3 各领域常用词分布情况第37-38页
    3.5 微博语料实验与分析第38-39页
    3.6 本章小结第39-40页
第四章 改进权重计算并融合BTM主题特征的短文本分类方法第40-53页
    4.1 改进权重计算并融合BTM主题特征的短文本分类算法第40-43页
        4.1.1 引入BTM主题词与文档-主题特征第40-41页
        4.1.2 特征权重计算算法的改进第41-42页
        4.1.3 算法描述第42-43页
    4.2 k-近邻算法第43-45页
    4.3 实验结果与分析第45-50页
        4.3.1 语料库选择第45页
        4.3.2 评价标准第45-46页
        4.3.3 主题个数选取实验第46页
        4.3.4 主题词加入个数实验第46-48页
        4.3.5 改进词频对分类结果的影响第48-49页
        4.3.6 与传统分类方法对比第49页
        4.3.7 不同特征组合方法比较第49-50页
    4.4 短文本语料库与TF~*IWF~*WDPV+BTM第50-52页
        4.4.1 基于构建语料库的分类算法对比第50-51页
        4.4.2 基于融合BTM主题特征方法的语料库效果对比第51-52页
    4.5 本章小结第52-53页
第五章 总结与展望第53-55页
    5.1 本文总结第53页
    5.2 未来展望第53-55页
参考文献第55-60页
附录A 图索引第60-61页
AppendiX A Figure Index第61-62页
附录B 表索引第62-63页
Appendix B Table Index第63-64页
致谢第64-65页
读研期间所做工作第65页

论文共65页,点击 下载论文
上一篇:基于四种干旱指数的东北地区多时间尺度干旱特征对比分析
下一篇:脉冲调制射频等离子体化学气相沉积TiO2三维结构薄膜