基于Hadoop2.0的海量数据处理

中文摘要	第5-6页
ABSTRACT	第6页
1 绪论	第9-14页
1.1 课题的研究背景	第9-10页
1.2 课题研究的目的和意义	第10-11页
1.3 研究现状	第11-13页
1.4 论文结构	第13-14页
2 相关技术和理论研究	第14-23页
2.1 基本概念介绍	第14-18页
2.1.1 Hadoop概述	第14-15页
2.1.2 MapReduce编程模型	第15-16页
2.1.3 Hadoop的分布式文件系统	第16-18页
2.2 Hive简介	第18-19页
2.2.1 UDF,UDTF,UDAF	第18-19页
2.2.2 Hive客户端	第19页
2.3 Oozie简介	第19-20页
2.4 YARN解析	第20-22页
2.5 本章小结	第22-23页
3 功能分析与结构设计	第23-30页
3.1 信息抓取分析	第23页
3.2 整体架构简介	第23-24页
3.3 抓取模块设计	第24-28页
3.3.1 Task Generator	第24-25页
3.3.2 URL Generator	第25-26页
3.3.3 Data Extrator	第26-27页
3.3.4 Data Aggreator	第27页
3.3.5 Common Publisher	第27-28页
3.4 Oozie调度设计	第28-29页
3.5 本章小结	第29-30页
4 Hadoop生态系统的具体实践	第30-42页
4.1 实验数据和环境准备	第30页
4.2 结果标准	第30页
4.3 模块实施	第30-38页
4.3.1 输入数据	第30-31页
4.3.2 Hive表结构设计	第31-32页
4.3.3 代码解析	第32-34页
4.3.4 调度解析	第34-38页
4.3.5 结果数据	第38页
4.4 实验结果分析	第38-39页
4.4.1 抓取分析	第38-39页
4.4.2 解析数据分析	第39页
4.5 成果总结	第39-40页
4.5.1 MapReduce适用场景总结	第39-40页
4.5.2 Hive适用场景总结	第40页
4.5.3 HDFS适用场景总结	第40页
4.5.4 Oozie适用场景总结	第40页
4.6 本章小结	第40-42页
5 总结与展望	第42-44页
5.1 总结	第42-43页
5.2 展望	第43-44页
参考文献	第44-46页
致谢	第46-47页
作者简介	第47页