基于Spark的并行频繁项集挖掘算法研究及应用

摘要	第5-6页
Abstract	第6页
第一章绪论	第9-16页
1.1 课题的背景及意义	第9-11页
1.2 国内外研究现状	第11-14页
1.3 本文的主要研究工作	第14页
1.4 本文的组织结构	第14-16页
第二章相关理论与技术	第16-24页
2.1 关联规则	第16-18页
2.1.1 关联规则基本概念	第16-17页
2.1.2 关联规则挖掘算法	第17-18页
2.2 Spark大数据处理架构	第18-21页
2.2.1 Spark的设计结构	第18页
2.2.2 RDD弹性分布式数据集	第18-20页
2.2.3 Spark平台的优势	第20-21页
2.3 推荐理论及相关技术	第21-23页
2.3.1 推荐系统介绍	第21页
2.3.2 相关推荐算法及比较	第21-23页
2.4 本章小结	第23-24页
第三章 FP-Growth算法的改进及并行化研究	第24-33页
3.1 传统频繁项集挖掘算法	第24-25页
3.1.1 频繁项集挖掘算法原理	第24-25页
3.1.2 FP-Growth算法的缺点	第25页
3.2 FP-Growth算法的改进及实现	第25-28页
3.2.1 IFP算法的数据结构	第26-27页
3.2.2 IFP算法的剪枝策略及实现	第27-28页
3.3 基于Spark的IFP算法的并行化实现	第28-32页
3.3.1 导入数据集	第28页
3.3.2 支持度的并行计算	第28-30页
3.3.3 数据切分	第30-31页
3.3.4 IPFP算法的并行化执行	第31-32页
3.4 本章小结	第32-33页
第四章 IPFP算法的应用	第33-40页
4.1 数据预处理	第33-35页
4.1.1 初始数据集	第33-34页
4.1.2 数据预处理	第34-35页
4.2 基于IPFP的图书推荐算法	第35-39页
4.2.1 推荐算法的实现步骤	第36-37页
4.2.2 实验结果	第37页
4.2.3 选书推荐服务	第37-39页
4.3 本章小结	第39-40页
第五章实验分析	第40-49页
5.1 实验环境的搭建	第40-42页
5.1.1 硬件信息	第40页
5.1.2 软件信息	第40-41页
5.1.3 Hadoop集群的部署	第41-42页
5.1.4 Spark集群的部署	第42页
5.2 IPFP算法性能分析	第42-45页
5.2.1 实验的评价标准	第43页
5.2.2 IPFP算法实验分析	第43-45页
5.3 图书推荐效果分析	第45-47页
5.3.1 实验的评价标准	第45页
5.3.2 图书推荐实验分析	第45-47页
5.4 本章小结	第47-49页
第六章总结与展望	第49-51页
6.1 总结	第49页
6.2 展望	第49-51页
攻读硕士期间发表的论文	第51-53页
参考文献	第53-56页
致谢	第56页