基于Spark平台的关联规则算法应用研究

摘要	第4-5页
abstract	第5-6页
第一章绪论	第9-14页
1.1 研究背景	第9-10页
1.2 研究现状	第10-12页
1.2.1 大数据研究	第10-11页
1.2.2 关联规则算法的研究现状	第11-12页
1.2.3 Spark发展现状	第12页
1.3 本文主要工作	第12-13页
1.4 本文结构	第13-14页
第二章相关背景知识介绍	第14-22页
2.1 关联规则挖掘算法	第14-16页
2.1.1 基于MapReduce的并行化关联规则算法	第14-15页
2.1.2 基于Spark的并行化关联规则算法	第15-16页
2.2 Hadoop技术	第16-18页
2.2.1 分布式文件系统HDFS	第16-17页
2.2.2 分布式运算模型MapReduce	第17-18页
2.3 Spark技术	第18-21页
2.3.1 Spark体系结构	第18-19页
2.3.2 Spark编程模型	第19-20页
2.3.3 Spark任务调度管理原理	第20-21页
2.4 本章总结	第21-22页
第三章关联规则算法的研究	第22-32页
3.1 关联规则算法的基本概念	第22-23页
3.2 经典关联规则挖掘算法Apriori	第23-26页
3.2.1 Apriori算法原理	第23-25页
3.2.2 Apriori算法缺陷	第25-26页
3.3 改进Apriori算法研究	第26-30页
3.3.1 改进Apriori算法优化过程	第26-28页
3.3.2 改进算法的伪代码实现	第28-30页
3.4 改进Apriori算法性能评价	第30-31页
3.5 本章小结	第31-32页
第四章基于Spark平台关联规则算法并行化研究	第32-48页
4.1 并行计算	第32-34页
4.1.1 并行计算的基本概念	第32-33页
4.1.2 并行计算的复杂度	第33页
4.1.3 并行计算的性能评价	第33-34页
4.2 Spark并行框架	第34-36页
4.3 并行Apriori算法	第36-47页
4.3.1 Apriori算法并行化原理	第37-42页
4.3.2 改进Apriori算法示例分析	第42-47页
4.4 本章小结	第47-48页
第五章实验与分析	第48-56页
5.1 实验环境	第48-51页
5.1.1 集群环境配置	第48-50页
5.1.2 集群启动	第50-51页
5.2 实验数据	第51-52页
5.3 实验对比数据	第52-55页
5.3.1 不同规模数据集实验情况	第52-53页
5.3.2 不同支持度实验情况	第53-54页
5.3.3 不同集群规模实验情况	第54页
5.3.4 不同大数据平台实验情况	第54-55页
5.4 本章小结	第55-56页
第六章总结与展望	第56-58页
6.1 论文总结	第56页
6.2 本文存在的不足	第56-57页
6.3 展望	第57-58页
参考文献	第58-61页
附录1 攻读硕士学位期间申请的专利	第61-62页
附录2 攻读硕士学位期间参加的科研项目	第62-63页
致谢	第63页