首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

互联网新闻分类中特征选择和特征提取方法研究

摘要第5-7页
ABSTRACT第7-8页
第1章 绪论第11-17页
    1.1 选题背景和意义第11-12页
    1.2 研究历史和国内外研究现状第12-13页
    1.3 新闻文本分类中的关键问题第13-14页
    1.4 本文研究内容第14-15页
    1.5 本文组织结构第15-17页
第2章 文本分类中的关键技术第17-31页
    2.1 文本预处理第17-18页
        2.1.1 文本分词第17页
        2.1.2 去停用词第17-18页
    2.2 特征选择第18-20页
    2.3 特征提取第20-21页
        2.3.1 布尔模型第20页
        2.3.2 向量空间模型第20-21页
    2.4 分类算法第21-24页
    2.5 评价指标第24-25页
    2.6 词向量第25-30页
        2.6.1 词向量由来第25-26页
        2.6.2 词向量训练模型第26-28页
        2.6.3 Word2vec词向量训练工第28-30页
    2.7 本章小结第30-31页
第3章 基于方差的特征选择方法第31-43页
    3.1 常用文本特征选择方法存在的问题第31-33页
    3.2 基于方差的特征选择思想第33-36页
        3.2.1 类间概率分布方差第33-34页
        3.2.2 文档分布方差第34页
        3.2.3 基于文档分布方差的TF-IDDF特征选择方法第34-35页
        3.2.4 基于类间概率分布方差的互信息特征选择方法第35-36页
    3.3 方法验证和结果分析第36-41页
        3.3.1 VAR-TF-IDF分类效果第37-39页
        3.3.2 VAR-MI分类效果第39-41页
    3.4 本章小结第41-43页
第4章 词向量特征提取第43-61页
    4.1 基于指数衰减模型的CBOW+HS词向量训练框架第43-51页
        4.1.1 上下文衰减规律第43-49页
        4.1.2 基于指数衰减模型的词向量训练框架第49-50页
        4.1.3 实验结果及其分析第50-51页
    4.2 不同特征向量表示方法对新闻文本分类效果的影响第51-59页
        4.2.1 特征词词向量首尾相接作为新闻文本特征向量第52-54页
        4.2.2 特征词词向量叠加作为新闻文本的特征向量第54-56页
        4.2.3 VSM中特征向量和词向量叠加所得向量作为新的特征向量第56-59页
    4.3 本章小结第59-61页
第5章 总结与展望第61-63页
    5.1 本文工作总结第61-62页
    5.2 未来工作展望第62-63页
参考文献第63-69页
致谢第69-71页
在读期间发表的学术论文与取得的其他研究成果第71页

论文共71页,点击 下载论文
上一篇:两种非传统交叉路口的运行性能研究
下一篇:基于视频图像特征提取的烟雾检测算法研究