基于MapReduce的任务算子框架在大数据分析平台上的设计和实现

摘要	第5-6页
ABSTRACT	第6页
第一章绪论	第10-14页
1.1 研究背景及意义	第10-11页
1.2 研究现状	第11-12页
1.3 本文的主要工作	第12-13页
1.4 本文组织结构	第13页
1.5 本章小结	第13-14页
第二章相关技术	第14-26页
2.1 MapReduce并行编程模型	第14-15页
2.1.1 MapReduce主要思想	第14页
2.1.2 MapReduce工作原理	第14-15页
2.1.3 MapReduce作业流程	第15页
2.2 HDFS分布式文件系统	第15-17页
2.2.1 HDFS基本架构	第15-16页
2.2.2 HDFS工作原理	第16-17页
2.3 Kafka分布式消息系统	第17-19页
2.3.1 Kafka设计原理	第17-18页
2.3.2 Kafka工作机制	第18-19页
2.4 Avro序列化框架	第19-20页
2.5 YARN分布式资源管理系统	第20-22页
2.5.1 YARN基本架构	第20-21页
2.5.2 YARN工作原理	第21-22页
2.6 Thrift远程过程调用框架	第22-23页
2.7 Zookeeper分布式协调服务	第23-25页
2.7.1 Zookeeper基本架构	第23-25页
2.7.2 Zookeeper工作原理	第25页
2.8 本章小结	第25-26页
第三章大数据分析平台	第26-36页
3.1 平台的总体设计	第26-30页
3.1.1 平台概述	第26-27页
3.1.2 平台业务流程	第27-28页
3.1.3 平台总体架构	第28-30页
3.2 平台的详细设计	第30-35页
3.2.1 数据采集模块	第30-31页
3.2.2 数据接入模块	第31-32页
3.2.3 数据存储模块	第32-33页
3.2.4 并行计算模块	第33页
3.2.5 Web前后台和命令控制模块	第33-35页
3.3 本章小结	第35-36页
第四章任务算子框架	第36-46页
4.1 框架的总体设计	第36-38页
4.2 框架的详细设计	第38-42页
4.2.1 任务算子应用的构建	第38-40页
4.2.2 任务算子应用的执行	第40-41页
4.2.3 任务算子应用的运行状态控制	第41-42页
4.3 框架的数据库设计	第42-45页
4.4 本章小结	第45-46页
第五章任务算子	第46-74页
5.1 任务算子的基本设计思想	第46-48页
5.2 普通算子类	第48-50页
5.3 转化算子类	第50-57页
5.3.1 record转化算子	第50-52页
5.3.2 key-value转化算子	第52-54页
5.3.3 record与key-value转化算子	第54-56页
5.3.4 record与文本转化算子	第56-57页
5.4 重整算子类	第57-61页
5.5 键值对算子类	第61-67页
5.6 集合算子类	第67-73页
5.6.1 集合操作算子	第67-68页
5.6.2 集合连接算子	第68-73页
5.7 本章小结	第73-74页
第六章测试与实验	第74-83页
6.1 测试环境	第74-75页
6.2 测试方法	第75页
6.3 测试过程	第75-77页
6.4 测试结果	第77-82页
6.4.1 任务算子的功能和性能测试	第77-80页
6.4.2 任务算子应用的功能测试	第80-82页
6.5 本章小结	第82-83页
第七章总结与展望	第83-84页
参考文献	第84-87页
攻读硕士学位期间取得的研究成果	第87-88页
致谢	第88-89页
附件	第89页