基于Hadoop的频繁模式挖掘算法研究

摘要	第2-4页
ABSTRACT	第4-6页
1 绪论	第9-16页
1.1 研究背景及意义	第9-10页
1.2 国内外研究现状	第10-14页
1.3 本文的主要工作	第14页
1.4 本文的组织结构	第14-16页
2 频繁模式挖掘	第16-27页
2.1 关联规则	第16-17页
2.2 频繁模式挖掘基本概念	第17-20页
2.2.1 问题描述和概念定义	第17-18页
2.2.2 搜索策略	第18-19页
2.2.3 数据格式	第19-20页
2.3 经典频繁模式挖掘算法	第20-26页
2.3.1 Apriori算法	第20-23页
2.3.2 FP-Growth算法	第23-24页
2.3.3 Eclat算法	第24-26页
2.4 本章小结	第26-27页
3 Haoop概述	第27-35页
3.1 Hadoop的简述	第27-28页
3.2 分布式文件系统——HDFS	第28-30页
3.3 分布式编程模型——MapReduce	第30-33页
3.4 资源管理器Yarn	第33-34页
3.5 本章小结	第34-35页
4 基于dFIN算法的并行化设计与实现	第35-49页
4.1 dFIN算法	第35-42页
4.1.1 PPC-tree定义	第36-37页
4.1.2 DiffNodeset定义	第37-41页
4.1.3 dFIN算法流程	第41-42页
4.2 dFIN的并行化算法——MRdFIN	第42-48页
4.2.1 统计一阶频繁模式	第43-44页
4.2.2 均衡分组	第44-46页
4.2.3 并行dFIN挖掘k-项集	第46-48页
4.3 本章小结	第48-49页
5 基于Hadoop的频繁模式混合挖掘算法	第49-65页
5.1 混合搜索策略	第49-51页
5.2 混合数据格式	第51-55页
5.2.1 混合垂直数据格式——mixset	第51-52页
5.2.2 基于快速失败机制的交叉计数	第52-54页
5.2.3 垂直数据格式转换为水平数据格式	第54-55页
5.3 剪枝策略	第55-59页
5.3.1 构建有序搜索树	第55-56页
5.3.2 完全剪枝	第56-57页
5.3.3 根据非频繁模式进行不完全剪枝	第57-59页
5.4 混合挖掘算法HFPM	第59-63页
5.4.1 统计一阶和二阶频繁模式阶段	第60-61页
5.4.2 划分阶段	第61-62页
5.4.3 混合挖掘阶段	第62-63页
5.5 本章小结	第63-65页
6 实验与分析	第65-72页
6.1 实验环境与数据	第65-66页
6.2 实验结果与分析	第66-71页
6.2.1 运行时间对比	第66-68页
6.2.2 伸缩性对比	第68-69页
6.2.3 算法策略分析	第69-71页
6.3 本章小结	第71-72页
7 总结与展望	第72-73页
7.1 全文总结	第72页
7.2 未来展望	第72-73页
参考文献	第73-76页
本文作者硕士期间参加的科研项目及学术成果	第76-77页
致谢	第77-78页