摘要 | 第3-4页 |
abstract | 第4-5页 |
1 绪论 | 第8-12页 |
1.1 研究背景和研究意义 | 第8-9页 |
1.2 国内外研究现状 | 第9-10页 |
1.3 本论文的研究内容 | 第10-12页 |
2 数据挖掘概述 | 第12-16页 |
2.1 数据挖掘的产生背景和定义 | 第12页 |
2.2 数据挖掘的一般过程 | 第12-13页 |
2.3 数据挖掘的主要任务和方法 | 第13-15页 |
2.4 数据挖掘未来的研究方向和热点 | 第15页 |
2.5 本章小结 | 第15-16页 |
3 关联规则挖掘理论与算法 | 第16-24页 |
3.1 关联规则的基本概念 | 第16-17页 |
3.2 关联规则的挖掘步骤 | 第17页 |
3.3 关联规则挖掘理论的分类 | 第17-18页 |
3.4 经典关联规则算法分析 | 第18-22页 |
3.4.1 Apriori算法 | 第18-19页 |
3.4.2 FP-growth算法 | 第19-22页 |
3.5 本章小结 | 第22-24页 |
4 Spark相关技术 | 第24-30页 |
4.1 Spark技术生态系统 | 第24页 |
4.2 Spark核心思想 | 第24-26页 |
4.3 Spark集群的搭建 | 第26-28页 |
4.4 Spark的特点 | 第28-29页 |
4.5 本章小结 | 第29-30页 |
5 FP-growth算法改进 | 第30-68页 |
5.1 改进的FP-tree结构 | 第30-40页 |
5.1.1 改进的策略和原理 | 第30-33页 |
5.1.2 ENFP-tree算法描述 | 第33-34页 |
5.1.3 ENFP-tree的构造过程示例 | 第34-40页 |
5.2 FP-array的提出 | 第40-45页 |
5.2.1 FP-growth算法分析 | 第40页 |
5.2.2 算法改进思路 | 第40-42页 |
5.2.3 基于ENFP-tree、FP-array的FP-growth算法 | 第42-43页 |
5.2.4 实验验证 | 第43-45页 |
5.3 改变项的映射方向 | 第45-55页 |
5.3.1 条件FP-tree对算法总体效率的影响 | 第45-46页 |
5.3.2 FP-tree的处理特点 | 第46页 |
5.3.3 FP-tree的改进处理 | 第46-55页 |
5.4 基于ENFP-tree、FP-array、项向后映射的FP-growth算法 | 第55-66页 |
5.4.1 ENFP-growth算法思想和伪代码 | 第55-57页 |
5.4.2 ENFP-growth算法优点 | 第57-58页 |
5.4.3 ENFP-growth算法举例 | 第58-63页 |
5.4.4 实验验证 | 第63-66页 |
5.5 本章小结 | 第66-68页 |
6 基于Spark平台的ENFP-growth并行化算法实现 | 第68-74页 |
6.1 Spark并行计算框架 | 第68-69页 |
6.2 基于Spark的ENFP-growth算法的并行原理 | 第69-70页 |
6.3 实验验证 | 第70-73页 |
6.3.1 实验环境 | 第70页 |
6.3.2 实验实现步骤 | 第70-73页 |
6.4 本章小结 | 第73-74页 |
7 总结与展望 | 第74-76页 |
7.1 本文总结 | 第74页 |
7.2 工作展望 | 第74-76页 |
致谢 | 第76-78页 |
参考文献 | 第78-80页 |