首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--一般性问题论文--安全保密论文

基于SPARK与随机森林的短信诈骗用户识别研究

摘要第5-6页
Abstract第6页
第一章 绪论第10-16页
    1.1 选题背景和意义第10-11页
    1.2 国内外相关研究第11-13页
        1.2.1 电信诈骗预测研究现状第11-12页
        1.2.2 数据挖掘技术在电信领域的应用现状第12页
        1.2.3 SPARK研究现状第12-13页
        1.2.4 随机森林的研究现状第13页
    1.3 研究目标及内容第13-14页
        1.3.1 研究目标第13页
        1.3.2 研究内容第13-14页
    1.4 论文结构第14页
    1.5 本章小结第14-16页
第二章 相关理论知识第16-26页
    2.1 数据挖掘及常见算法第16-21页
        2.1.1 数据挖掘概念第16页
        2.1.2 数据挖掘过程第16-17页
        2.1.3 分类算法概述第17-21页
    2.2 非平衡数据分类第21-23页
        2.2.1 非平衡数据分类问题的本质第21-22页
        2.2.2 常见非平衡分类解决方案第22-23页
    2.3 随机森林的算法原理介绍第23页
    2.4 并行计算框架第23-25页
        2.4.1 体系框架第23-24页
        2.4.2 SPARKRDD及程序流程第24-25页
    2.5 本章小结第25-26页
第三章 短信诈骗用户模型设计与实现第26-40页
    3.1 模型设计的总体思路第26页
    3.2 业务理解第26-27页
        3.2.1 预测客户群范围第26-27页
        3.2.2 短信诈骗用户定义第27页
    3.3 数据准备第27-31页
        3.3.1 数据来源及描述第27-28页
        3.3.2 数据质量检查第28-30页
        3.3.3 数据探索第30-31页
    3.4 变量选择第31-32页
        3.4.1 基于区分度的筛选第31页
        3.4.2 基于相关性筛选第31-32页
    3.5 模型运行环境第32-34页
    3.6 模型的构建第34-38页
        3.6.1 分类算法比较第34页
        3.6.2 参数设置第34-35页
        3.6.3 模型代码实现第35-38页
    3.7 本章小结第38-40页
第四章 并行分层子空间权重随机森林设计与实现第40-54页
    4.1 随机森林的不足之处第40页
    4.2 分层子空间权重随机森林算法第40-46页
        4.2.1 特征相关性度量及特征选择第41页
        4.2.2 类别不平衡条件下特征子空间的选择方法第41-45页
        4.2.3 分层子空间权重随机森林算法的过程第45-46页
    4.3 基于SPARK的并行随机森林算法的设计实现第46-53页
        4.3.1 并行性研究第46-47页
        4.3.2 并行优化策略第47-48页
        4.3.3 并行随机森林算法流程及描述第48-53页
    4.4 本章小结第53-54页
第五章 模型结果与分析第54-62页
    5.1 评估方法与标准第54-55页
    5.2 模型结果分析第55-57页
        5.2.1 模型结果说明第55页
        5.2.2 高危诈骗用户特征分析第55-57页
    5.3 模型调优第57-58页
    5.4 算法优化效果分析第58-60页
        5.4.1 并行优化效果比较第58-59页
        5.4.2 算法并行性能测试第59-60页
    5.5 模型解释与应用第60-61页
    5.6 本章小结第61-62页
第六章 总结与展望第62-64页
    6.1 总结第62页
    6.2 工作展望第62-64页
致谢第64-66页
参考文献第66-70页
附录A 攻读硕士期间发表的论文、申请的专利第70页

论文共70页,点击 下载论文
上一篇:基于深度用户兴趣建模的社交推荐问题研究
下一篇:基于超像素的彩色图像快速分割方法研究