首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于文本内容二元混合特征的垃圾短信识别研究

摘要第3-4页
Abstract第4-5页
第一章 绪论第9-16页
    1.1 研究背景及研究意义第9-11页
    1.2 垃圾短信的特点及种类第11-13页
    1.3 国内外垃圾短信治理现状第13-14页
    1.4 论文结构及创新点第14-15页
    1.5 本章小结第15-16页
第二章 传统的垃圾短信识别技术第16-36页
    2.1 垃圾短信识别概述第16页
    2.2 中文分词第16-17页
    2.3 文本去噪形成特征项集第17页
    2.4 文本表示第17-19页
        2.4.1 布尔权值法第18页
        2.4.2 词频权值法第18页
        2.4.3 TF-IDF权值法第18-19页
    2.5 特征选择第19-20页
        2.5.1 信息增益第19-20页
        2.5.2 卡方统计量第20页
    2.6 文本分类算法第20-22页
        2.6.1 支持向量机第21页
        2.6.2 Random Forest 算法第21-22页
    2.7 模型评价指标第22-24页
        2.7.1 常用评价指标第22-23页
        2.7.2 非平衡数据集下的评价指标第23-24页
    2.8 模型实验第24-34页
        2.8.1 实验建模流程图第24页
        2.8.2 实验数据集和实验环境介绍第24-25页
        2.8.3 实验数据预处理第25-29页
        2.8.4 形成特征项集和短信文本表示第29页
        2.8.5 特征选择与模型结果评价第29-34页
    2.9 分类器性能不高的原因分析第34-35页
        2.9.1 从数据量的角度分析第34页
        2.9.2 从数据本身的角度分析第34页
        2.9.3 从模型和算法的角度分析第34-35页
    2.10 本章小结第35-36页
第三章 不平衡垃圾短信数据集的处理方法研究第36-49页
    3.1 常用不平衡数据处理方法第36-38页
        3.1.1 基于抽样的方法第37页
        3.1.2 基于特征选择的方法第37页
        3.1.3 基于算法的方法第37-38页
    3.2 基于LDA-Kmeans聚类的降采样算法第38-43页
        3.2.1 不平衡短信文本数据集分析及方法探讨第38页
        3.2.2 LDA主题模型简介第38-41页
        3.2.3 Kmeans聚类简介第41页
        3.2.4 基于LDA-Kmeans聚类的降采样算法第41-43页
    3.3 实验部分第43-48页
        3.3.1 实验流程第43页
        3.3.2 实验参数设置第43-44页
        3.3.3 正常短信类的主题分析第44-46页
        3.3.4 Kmeans聚类分析第46页
        3.3.5 实验结果分析与评价第46-48页
    3.5 本章小结第48-49页
第四章 基于二元混合特征的垃圾短信分类第49-60页
    4.1 短信文本特性分析第49-50页
    4.2 基于短信内容统计特性的特征构建第50-55页
        4.2.1 基于短信内容长度特性的特征构建第50-51页
        4.2.2 基于短信中数字及字母个数的特征构建第51-53页
        4.2.3 基于文本预处理后短信中词项个数的特征构建第53-55页
    4.3 变量的有效性验证第55页
    4.4 基于二元混合特征的模型实验第55-59页
        4.4.1 变量选择第55-57页
        4.4.2 实验结果分析及评价第57-59页
    4.5 本章小结第59-60页
第五章 总结与展望第60-62页
    5.1 总结第60-61页
    5.2 展望第61-62页
参考文献第62-65页
致谢第65页

论文共65页,点击 下载论文
上一篇:基于Spark的分布式图数据处理机制研究
下一篇:基于Struts框架的办公自动化领域复用研究