关联规则算法Apriori的优化及基于Spark的并行化研究

摘要	第8-9页
ABSTRACT	第9页
第一章绪论	第10-18页
1.1 课题研究背景及意义	第10-12页
1.2 国内外研究现状	第12-15页
1.2.1 Apriori算法优化技术相关研究	第12-14页
1.2.2 Apriori算法并行化技术相关研究	第14-15页
1.3 本文主要工作	第15-16页
1.4 本文组织结构	第16-18页
第二章相关知识	第18-28页
2.1 Apriori算法概述	第18-22页
2.1.1 Apriori算法简介	第18页
2.1.2 Apriori算法相关概念	第18-19页
2.1.3 Apriori算法流程	第19-22页
2.2 Hadoop并行计算框架	第22-23页
2.3 Spark并行计算框架	第23-26页
2.3.1 弹性分布式数据集RDD	第23-25页
2.3.2 有向无环图DAG	第25-26页
2.4 本章小结	第26-28页
第三章 Apriori优化算法I-Apriori	第28-42页
3.1 Apriori算法性能瓶颈	第28-29页
3.1.1 候选项集产生过程	第28页
3.1.2 重复扫描事务数据集	第28-29页
3.1.3 数据量巨大时造成的内存紧张	第29页
3.2 Apriori算法优化策略	第29-33页
3.2.1 布尔向量矩阵	第29-30页
3.2.2 消除候选项集产生过程	第30-32页
3.2.3 BitSet处理机制	第32-33页
3.3 Apriori优化算法I-Apriori	第33-39页
3.3.1 I-Apriori算法流程	第33-34页
3.3.2 I-Apriori算法实现	第34-39页
3.4 I-Apriori算法举例	第39-41页
3.5 本章小结	第41-42页
第四章基于Spark的I-Apriori算法并行化	第42-55页
4.1 IABS算法思想	第42-43页
4.1.1 基于Spark平台并行化的必要性	第42-43页
4.1.2 并行化关键部分	第43页
4.2 Apriori算法与Spark结合的并行化机制	第43-46页
4.2.1 RDD和内存计算	第43-44页
4.2.2 广播变量	第44页
4.2.3 提高并行度	第44-46页
4.3 IABS的并行化实现	第46-52页
4.3.1 频繁项集生成阶段	第46-51页
4.3.2 关联规则生成阶段	第51-52页
4.4 算法时间复杂度分析	第52-54页
4.4.1 YAFIM时间复杂度	第52-53页
4.4.2 IABS时间复杂度	第53-54页
4.5 本章小结	第54-55页
第五章性能分析	第55-62页
5.1 I-Apriori性能分析	第55-57页
5.1.1 实验环境与数据集	第55页
5.1.2 Apriori与I-Apriori性能比较	第55-57页
5.2 IABS性能分析	第57-61页
5.2.1 实验环境与数据集	第57页
5.2.2 IABS与YAFIM性能比较	第57-61页
5.3 本章小结	第61-62页
第六章总结与展望	第62-64页
6.1 论文总结	第62页
6.2 工作展望	第62-64页
致谢	第64-65页
参考文献	第65-69页
作者在学期间取得的学术成果	第69页