大数据环境下的关联规则提取算法研究

摘要	第5-6页
Abstract	第6页
1 绪论	第9-13页
1.1 论文的研究背景与选题意义	第9-10页
1.2 国内外研究现状	第10-11页
1.2.1 传统关联规则的研究现状	第10-11页
1.2.2 大数据环境下的关联规则研究现状	第11页
1.3 本文的主要工作	第11-12页
1.4 论文的主要内容及结构安排	第12-13页
2 分布式并行系统基础架构相关知识	第13-23页
2.1 Hadoop简介	第13-15页
2.2 分布式文件系统HDFS	第15-17页
2.2.1 HDFS的体系结构	第15-17页
2.2.2 HDFS的读写原理	第17页
2.3 编程模型MapReduce	第17-19页
2.3.1 MapReduce的体系结构	第17-18页
2.3.2 MapReduce的工作流程	第18-19页
2.4 机器学习类库Mahout	第19-20页
2.5 数据仓库Hive	第20-21页
2.6 Hadoop大数据处理架构	第21-22页
2.7 本章小节	第22-23页
3 关联规则相关算法研究	第23-35页
3.1 关联规则	第23-24页
3.2 Apriori算法	第24页
3.2.1 Apriori算法的原理	第24页
3.2.2 Apriori算法的分析	第24页
3.3 蕴含关联规则提取算法	第24-32页
3.3.1 蕴含关联规则	第26-28页
3.3.2 蕴含关联规则的提取方法	第28-30页
3.3.3 蕴含关联规则的应用	第30-32页
3.4 PF-Growth算法	第32-34页
3.4.1 PF-Growth算法原理	第32-34页
3.4.2 FP-Growth算法的缺陷	第34页
3.4.3 FP-Growth算法的并行化	第34页
3.5 本章小结	第34-35页
4 OPFP-Growth算法的研究与应用	第35-44页
4.1 OPFP-Growth算法研究	第35-37页
4.1.1 负载均衡	第35-36页
4.1.2 引入频繁闭项集	第36页
4.1.3 Hive分析优化	第36-37页
4.2 OPFP-Growth算法流程	第37-39页
4.3 OPFP-Growth算法的应用	第39-43页
4.3.1 气象数据挖掘分析	第39-40页
4.3.2 数据收集源	第40-41页
4.3.3 数据预处理	第41-43页
4.4 本章小结	第43-44页
5 实验环境与结果	第44-55页
5.1 Hadoop/Hive环境配置	第44-50页
5.1.1 JDK的安装配置	第44-45页
5.1.2 Hadoop的安装配置	第45-48页
5.1.3 Hive的安装配置	第48-50页
5.2 性能测试	第50-53页
5.2.1 负载均衡	第50-52页
5.2.2 执行时间	第52-53页
5.3 结果分析	第53-54页
5.4 本章小结	第54-55页
6 结论和展望	第55-56页
6.1 结论	第55页
6.2 展望	第55-56页
参考文献	第56-58页
攻读硕士期间发表学术论文情况	第58-59页
致谢	第59页