基于Spark的流数据分类挖掘算法的研究

摘要	第4-5页
abstract	第5-6页
第一章绪论	第9-16页
1.1 论文研究目的及意义	第9-10页
1.2 国内外研究现状	第10-13页
1.3 本文主要工作	第13-14页
1.4 本文组织结构	第14-16页
第二章相关理论与技术概述	第16-28页
2.1 数据挖掘概述	第16-20页
2.1.1 数据挖掘相关定义	第16-17页
2.1.2 数据挖掘过程	第17-19页
2.1.3 决策树分类挖掘	第19-20页
2.2 流数据挖掘概述	第20-23页
2.2.1 流数据相关概念	第20-21页
2.2.2 流数据挖掘特点	第21页
2.2.3 流数据挖掘相关技术	第21-23页
2.3 大数据处理平台Spark概述	第23-27页
2.3.1 Spark生态系统	第23-24页
2.3.2 Spark核心概念	第24-25页
2.3.3 Spark的主要特点	第25-26页
2.3.4 Spark的应用	第26-27页
2.4 本章小结	第27-28页
第三章 CVFDT算法基于Spark的并行化研究	第28-38页
3.1 CVFDT算法基本思想	第28-30页
3.1.1 CVFDT算法有关定义	第28-29页
3.1.2 CVFDT算法流程	第29-30页
3.2 CVFDT算法优缺点分析	第30页
3.3 CVFDT基于Spark的并行化方案设计	第30-32页
3.3.1 CVFDT分割点计算过程并行化	第30-31页
3.3.2 Spark的并行化过程简述	第31-32页
3.3.3 基于Spark的RDD实现CVFDT的并行化	第32页
3.4 实验与结果分析	第32-37页
3.4.1 Spark平台相关搭建	第33-36页
3.4.2 CVFDT基于Spark的建树效率实验	第36页
3.4.3 CVFDT基于Spark处理不同数据量的时间测试实验与分析	第36-37页
3.5 本章小结	第37-38页
第四章面向连续属性的CVFDT算法及其并行化研究	第38-47页
4.1 有关概念	第38-39页
4.2 C-CVFDT算法设计	第39-43页
4.2.1 使用多元Delta方法代替Hoeffding边界计算	第39页
4.2.2 连续属性处理方法设计	第39-43页
4.3 C-CVFDT算法基于Spark的并行化方案设计	第43页
4.4 实验与结果分析	第43-46页
4.4.1 分类预测精度实验	第43-44页
4.4.2 连续属性数据流样本的预测准确度和时间消耗实验	第44-46页
4.5 本章小结	第46-47页
第五章面向不稳定流数据的概念自适应的集成分类算法研究	第47-56页
5.1 概念漂移与集成分类相关概念	第47-48页
5.2 面向不稳定流数据的概念自适应集成分类算法(ECA)设计	第48-52页
5.2.1 ECA算法思想与流程	第48-49页
5.2.2 CVFDT对不稳定性数据流的处理	第49页
5.2.3 朴素贝叶斯分类器对不稳定性数据的处理	第49-51页
5.2.4 集成分类器的更新	第51-52页
5.3 实验设计与结果分析	第52-54页
5.3.1 ECA算法与UDT算法在不同不稳定性下的分类准确率对比	第53页
5.3.2 ECA算法与UDT算法在相同不稳定性和不同数据量下的对比	第53-54页
5.4 本章小结	第54-56页
第六章总结与展望	第56-58页
6.1 工作总结	第56页
6.2 未来展望	第56-58页
参考文献	第58-61页
附录1 攻读硕士学位期间撰写的论文	第61-62页
致谢	第62页