首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Spark的流数据分类挖掘算法的研究

摘要第4-5页
abstract第5-6页
第一章 绪论第9-16页
    1.1 论文研究目的及意义第9-10页
    1.2 国内外研究现状第10-13页
    1.3 本文主要工作第13-14页
    1.4 本文组织结构第14-16页
第二章 相关理论与技术概述第16-28页
    2.1 数据挖掘概述第16-20页
        2.1.1 数据挖掘相关定义第16-17页
        2.1.2 数据挖掘过程第17-19页
        2.1.3 决策树分类挖掘第19-20页
    2.2 流数据挖掘概述第20-23页
        2.2.1 流数据相关概念第20-21页
        2.2.2 流数据挖掘特点第21页
        2.2.3 流数据挖掘相关技术第21-23页
    2.3 大数据处理平台Spark概述第23-27页
        2.3.1 Spark生态系统第23-24页
        2.3.2 Spark核心概念第24-25页
        2.3.3 Spark的主要特点第25-26页
        2.3.4 Spark的应用第26-27页
    2.4 本章小结第27-28页
第三章 CVFDT算法基于Spark的并行化研究第28-38页
    3.1 CVFDT算法基本思想第28-30页
        3.1.1 CVFDT算法有关定义第28-29页
        3.1.2 CVFDT算法流程第29-30页
    3.2 CVFDT算法优缺点分析第30页
    3.3 CVFDT基于Spark的并行化方案设计第30-32页
        3.3.1 CVFDT分割点计算过程并行化第30-31页
        3.3.2 Spark的并行化过程简述第31-32页
        3.3.3 基于Spark的RDD实现CVFDT的并行化第32页
    3.4 实验与结果分析第32-37页
        3.4.1 Spark平台相关搭建第33-36页
        3.4.2 CVFDT基于Spark的建树效率实验第36页
        3.4.3 CVFDT基于Spark处理不同数据量的时间测试实验与分析第36-37页
    3.5 本章小结第37-38页
第四章 面向连续属性的CVFDT算法及其并行化研究第38-47页
    4.1 有关概念第38-39页
    4.2 C-CVFDT算法设计第39-43页
        4.2.1 使用多元Delta方法代替Hoeffding边界计算第39页
        4.2.2 连续属性处理方法设计第39-43页
    4.3 C-CVFDT算法基于Spark的并行化方案设计第43页
    4.4 实验与结果分析第43-46页
        4.4.1 分类预测精度实验第43-44页
        4.4.2 连续属性数据流样本的预测准确度和时间消耗实验第44-46页
    4.5 本章小结第46-47页
第五章 面向不稳定流数据的概念自适应的集成分类算法研究第47-56页
    5.1 概念漂移与集成分类相关概念第47-48页
    5.2 面向不稳定流数据的概念自适应集成分类算法(ECA)设计第48-52页
        5.2.1 ECA算法思想与流程第48-49页
        5.2.2 CVFDT对不稳定性数据流的处理第49页
        5.2.3 朴素贝叶斯分类器对不稳定性数据的处理第49-51页
        5.2.4 集成分类器的更新第51-52页
    5.3 实验设计与结果分析第52-54页
        5.3.1 ECA算法与UDT算法在不同不稳定性下的分类准确率对比第53页
        5.3.2 ECA算法与UDT算法在相同不稳定性和不同数据量下的对比第53-54页
    5.4 本章小结第54-56页
第六章 总结与展望第56-58页
    6.1 工作总结第56页
    6.2 未来展望第56-58页
参考文献第58-61页
附录1 攻读硕士学位期间撰写的论文第61-62页
致谢第62页

论文共62页,点击 下载论文
上一篇:基于短时心电图间期序列的正常和高心律失常风险人群的自主神经状态分析
下一篇:混合记忆曲线与关联规则的标签推荐算法