基于Hadoop的大数据关联规则挖掘算法的研究与实现

摘要	第5-7页
Abstract	第7-8页
第一章绪论	第11-17页
1.1 研究背景及意义	第11-13页
1.1.1 研究背景	第11-12页
1.1.2 研究意义	第12-13页
1.2 国内外研究现状	第13-15页
1.3 本论文所做的工作	第15-16页
1.4 本论文的组织结构	第16-17页
第二章相关技术研究	第17-31页
2.1 关联规则挖掘概念	第17-18页
2.2 关联规则挖掘分类	第18页
2.3 关联规则挖掘算法	第18-25页
2.3.1 经典数据挖掘算法—Apriori	第18-21页
2.3.2 Apriori算法的改进	第21-22页
2.3.3 利用树形数据结构进行压缩的算法—FPGrowth	第22-25页
2.4 并行化平台Hadoop的研究	第25-30页
2.4.1 Hadoop概述	第25-27页
2.4.2 并行化计算模型—MapReduce	第27-28页
2.4.3 分布式文件系统—HDFS	第28-30页
2.5 本章小结	第30-31页
第三章PrePost算法的分析与改进	第31-44页
3.1 PrePost算法中的数据结构定义	第31-35页
3.1.1 PPC-Tree树定义	第31-32页
3.1.2 PPCode编码定义	第32-33页
3.1.3 N-list结构定义	第33-35页
3.2 PrePost算法概述	第35-41页
3.2.1 PrePost算法流程	第35-41页
3.2.2 PrePost算法的优缺点	第41页
3.3 对PrePost算法的改进	第41-43页
3.4 本章小结	第43-44页
第四章一种基于Hadoop平台的MRPrePost挖掘算法	第44-60页
4.1 MRPrePost算法概述	第44-54页
4.1.1 统计频繁1项集	第45-46页
4.1.2 对F-list均匀分组	第46-47页
4.1.3 并行挖掘频繁模式	第47-54页
4.2 分布式集群中的负载均衡策略研究	第54-58页
4.2.1 负载均衡的定义	第54页
4.2.2 基于负载均衡的MRPrePost算法的分组依据	第54-56页
4.2.3 负载均衡化的分组策略	第56页
4.2.4 负载均衡下的分组过程	第56-58页
4.3 分布式集群通信量	第58-59页
4.4 本章小结	第59-60页
第五章MRPrePost算法的性能测试与分析	第60-68页
5.1 实验数据与环境	第60-62页
5.1.1 实验数据	第60页
5.1.2 实验环境	第60-62页
5.2 实验结果与分析	第62-67页
5.3 本章小结	第67-68页
总结与展望	第68-70页
参考文献	第70-74页
攻读硕士学位期间取得的研究成果	第74-75页
致谢	第75-76页
附件	第76页