并行频繁项集挖掘算法研究

摘要	第4-5页
abstract	第5-6页
1	第8-13页
1.1 研究背景及意义	第8-10页
1.1.1 课题背景	第8-9页
1.1.2 研究意义	第9-10页
1.2 国内外研究现状	第10-11页
1.2.1 国外研究现状	第10-11页
1.2.2 国内研究现状	第11页
1.3 本文研究内容	第11-12页
1.4 本文的组织结构	第12-13页
第2章相关技术分析	第13-20页
2.1 Spark相关技术	第13-15页
2.1.1 Spark体系结构	第13页
2.1.2 Spark编程模型	第13-14页
2.1.3 Spark调度管理原理	第14-15页
2.2 频繁项集挖掘算法	第15-20页
2.2.1 单机挖掘算法	第15-16页
2.2.2 基于MPI的挖掘算法	第16-18页
2.2.3 基于MapReduce的挖掘算法	第18页
2.2.4 基于Spark的挖掘算法	第18-20页
第3章基于单机和单节点处理的频繁项集挖掘算法及改进	第20-54页
3.1 FP-Growth算法	第20-31页
3.2 Apriori算法及基于Apriori的二维表改进算法	第31-38页
3.2.1 Apriori算法设计概述	第31-34页
3.2.2 Apriori算法的二维表改进算法	第34-35页
3.2.3 实验结果和分析	第35-38页
3.3 DHP算法及基于单节点的DHP改进算法	第38-54页
3.3.1 DHP算法设计概述	第38-44页
3.3.2 基于Spark单节点的串行DHP压缩算法	第44-47页
3.3.3 实验结果和分析	第47-54页
第4章基于Spark集群的优化策略	第54-70页
4.1 Spark集群的DHP优化具体实现	第54-62页
4.1.1 建立哈希函数,生成集合数据	第54页
4.1.2 将集合中数据添加到Tuple2数据集中	第54-56页
4.1.3 压缩求和	第56页
4.1.4 剪枝过滤最小支持度	第56-58页
4.1.5 条件聚合数据集	第58-60页
4.1.6 实验结果和分析	第60-62页
4.2 Spark集群的FP-Growth优化	第62-70页
4.2.1 计算频繁1-项集	第63-64页
4.2.2 数据分组	第64-65页
4.2.3 并行挖掘频繁项集	第65-66页
4.2.4 数据聚合	第66-67页
4.2.5 实验结果和分析	第67-70页
第5章结论与展望	第70-72页
5.1 全文总结	第70页
5.2 展望	第70-72页
参考文献	第72-76页
致谢	第76页