基于Hadoop的动车组故障数据关联规则挖掘研究与实现

致谢	第5-6页
摘要	第6-7页
ABSTRACT	第7页
1 引言	第12-17页
1.1 课题研究背景及意义	第12-14页
1.1.1 研究背景	第12-13页
1.1.2 研究意义	第13-14页
1.2 研究现状	第14-15页
1.2.1 铁路应用大数据研究现状	第14页
1.2.2 数据挖掘并行化研究现状	第14-15页
1.3 论文组织结构	第15-17页
2 理论及相关技术介绍	第17-32页
2.1 Hadoop概述	第17-20页
2.1.1 Hadoop处理大数据的优势	第18-19页
2.1.2 使用Hadoop进行大数据分析的两种方法	第19页
2.1.3 群集部署Hadoop	第19-20页
2.2 MapReduce关键技术研究	第20-23页
2.2.1 MapReduce编程模型概述	第20-21页
2.2.2 MapReduce并行计算机制	第21-22页
2.2.3 MapReduce的容错机制	第22-23页
2.3 Hadoop分布式文件系统HDFS研究	第23-28页
2.3.1 HDFS概述	第23-24页
2.3.2 HDFS的设计理念	第24页
2.3.3 HDFS基础概念	第24-26页
2.3.4 HDFS体系结构	第26-27页
2.3.5 HDFS的局限性	第27-28页
2.4 Hive介绍	第28-29页
2.5 Apriori算法	第29-31页
2.5.1 算法思想	第29-31页
2.5.2 产生关联规则	第31页
2.6 本章小结	第31-32页
3 动车组故障数据分析及清洗	第32-41页
3.1 业务背景	第32页
3.2 故障数据分析	第32-35页
3.3 系统功能需求分析	第35页
3.4 基于Hadoop的数据清洗	第35-38页
3.4.1 清洗方法	第36-37页
3.4.2 清洗过程	第37-38页
3.5 数据清洗结果	第38-40页
3.5.1 结果与分析	第38-40页
3.6 本章小结	第40-41页
4 基于Hadoop的Apriori算法研究与改进	第41-59页
4.1 基于MapReduce的Apriori算法研究	第41-44页
4.1.1 MRApriori算法分析	第42-44页
4.2 对MRApriori算法的改进	第44-50页
4.2.1 频繁1项集计算	第46-47页
4.2.2 频繁k项集计算	第47-50页
4.2.3 对算法的进一步思考	第50页
4.3 对MRApriori算法的进一步改进	第50-55页
4.3.1 负载平衡改进	第53-54页
4.3.2 计算局部频繁项集	第54-55页
4.3.3 计算全局频繁项集	第55页
4.4 由频繁项集产生关联规则	第55-56页
4.5 算法性能评估	第56-58页
4.6 本章小结	第58-59页
5 动车组故障数据挖掘系统实现	第59-68页
5.1 集群环境	第59-61页
5.2 Hadoop平台的搭建	第61-62页
5.3 动车组故障数据挖掘	第62-67页
5.3.1 挖掘步骤	第63页
5.3.2 挖掘结果分析及展示	第63-67页
5.4 本章小结	第67-68页
6 总结与展望	第68-70页
6.1 工作总结	第68页
6.2 工作展望	第68-70页
参考文献	第70-73页
作者简历	第73-75页
学位论文数据集	第75页