基于Spark的高效用项集挖掘算法研究

摘要	第4-6页
ABSTRACT	第6-7页
1 绪论	第10-16页
1.1 研究背景及意义	第10-11页
1.2 国内外研究现状	第11-13页
1.2.1 关联规则的研究现状	第11-13页
1.2.2 高效用项集挖掘的研究现状	第13页
1.3 论文研究内容	第13-14页
1.4 论文结构安排	第14-16页
2 相关工作	第16-36页
2.1 问题定义与描述	第16-18页
2.2 d2hup算法	第18-23页
2.3 EFIM算法	第23-28页
2.4 Spark相关技术	第28-32页
2.4.1 Spark架构	第29-30页
2.4.2 Spark生态系统	第30-32页
2.5 相关工具介绍	第32-36页
3 基于SPARK的高效用项集挖掘并行化	第36-46页
3.1 基于Spark并行HUIM算法架构	第36-37页
3.2 d2hup算法并行化	第37-42页
3.2.1 基于数据划分的并行d2hup算法	第37-40页
3.2.2 基于树结构划分的并行d2hup算法	第40-42页
3.3 EFIM算法并行化	第42-46页
3.3.1 基于Spark的EFIM算法的设计思想	第42-43页
3.3.2 基于Spark的EFIM算法实现	第43-46页
4 实验结果	第46-54页
4.1 实验设计	第46页
4.2 数据集介绍	第46-47页
4.3 实验环境介绍	第47页
4.4 实验结果及分析	第47-53页
4.4.1 partition参数对于算法性能的影响	第48-51页
4.4.2 executors参数对算法性能影响	第51页
4.4.3 executor-cores参数对于算法性能的影响	第51-52页
4.4.4 并行HUIM算法与串行HUIM算法时间对比	第52-53页
4.5 本章小结	第53-54页
5 自动选择最优高效用项集挖掘算法	第54-60页
5.1 问题定义	第54页
5.2 算法设计	第54-55页
5.3 实验设计	第55-56页
5.4 实验结果	第56-58页
5.4.1 10折交叉验证结果	第56-57页
5.4.2 Cross-dataSet实验结果	第57-58页
5.5 本章小结	第58-60页
6 总结与展望	第60-62页
6.1 总结	第60页
6.2 展望	第60-62页
参考文献	第62-65页
致谢	第65-66页