摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第10-16页 |
1.1 研究背景和选题意义 | 第10-11页 |
1.2 国内外研究现状 | 第11-13页 |
1.3 研究内容 | 第13-14页 |
1.4 论文组织结构 | 第14-16页 |
第二章 序列模式挖掘算法研究概述 | 第16-23页 |
2.1 序列模式挖掘概念 | 第16页 |
2.2 基本术语 | 第16-18页 |
2.3 序列模式挖掘经典算法 | 第18-22页 |
2.3.1 AprioriAll算法 | 第18-19页 |
2.3.2 GSP算法 | 第19-20页 |
2.3.3 FreeSpan算法 | 第20-21页 |
2.3.4 PrefixSpan算法 | 第21-22页 |
2.4 本章小结 | 第22-23页 |
第三章 Spark Streaming流式计算框架及相关环境 | 第23-33页 |
3.1 Spark内存计算 | 第23-30页 |
3.1.1 Spark概述 | 第23-24页 |
3.1.2 Spark特点 | 第24页 |
3.1.3 弹性分布式数据集 | 第24-27页 |
3.1.4 Spark核心原理 | 第27-30页 |
3.2 Spark Streaming流式计算 | 第30-31页 |
3.3 应用程序开发环境 | 第31-32页 |
3.3.1 Scala语言简介 | 第31-32页 |
3.3.2 Intellij Idea开发环境配置 | 第32页 |
3.4 本章小结 | 第32-33页 |
第四章 基于滑动窗口的数据流序列模式挖掘算法 | 第33-51页 |
4.1 引言 | 第33页 |
4.2 数据流场景分析 | 第33-36页 |
4.2.1 数据流特点 | 第34页 |
4.2.2 数据流挖掘的要求 | 第34-35页 |
4.2.3 数据流序列模式挖掘和传统的序列模式挖掘区别 | 第35-36页 |
4.3 相关概念和定义 | 第36-37页 |
4.4 数据结构设计 | 第37-40页 |
4.4.1 CompressTrie | 第37-39页 |
4.4.2 PatternCache | 第39-40页 |
4.5 算法描述 | 第40-45页 |
4.5.1 算法流程 | 第41-42页 |
4.5.2 算法伪代码 | 第42-43页 |
4.5.3 算法实例 | 第43-45页 |
4.6 算法实验结果与分析 | 第45-50页 |
4.6.1 实验环境和数据集 | 第45页 |
4.6.2 召回率(Recall)分析 | 第45-48页 |
4.6.3 内存消耗分析 | 第48-49页 |
4.6.4 CPU占有率分析 | 第49-50页 |
4.7 本章小结 | 第50-51页 |
第五章 基于Spark Streaming的数据流序列模式挖掘算法 | 第51-65页 |
5.1 引言 | 第51页 |
5.2 相关概念和定义 | 第51-53页 |
5.3 算法描述 | 第53-59页 |
5.3.1 算法过程 | 第53-57页 |
5.3.2 算法并行化思路 | 第57-58页 |
5.3.3 算法滑动窗口设计 | 第58页 |
5.3.4 算法伪代码 | 第58-59页 |
5.4 算法实验结果与分析 | 第59-64页 |
5.5.1 召回率(Recall)分析 | 第60-61页 |
5.5.2 集群和单机性能比较 | 第61-63页 |
5.5.3 最小支持度对运行时间影响 | 第63-64页 |
5.5 本章小结 | 第64-65页 |
第六章 总结与展望 | 第65-67页 |
6.1 工作总结 | 第65-66页 |
6.2 未来展望 | 第66-67页 |
参考文献 | 第67-70页 |
致谢 | 第70页 |