基于Hadoop的大数据处理平台设计与实现

摘要	第2-3页
Abstract	第3页
1 绪论	第7-10页
1.1 选题背景	第7-8页
1.2 国内外研究现状	第8页
1.3 论文研究内容	第8-9页
1.4 论文组织结构	第9-10页
2 关键技术	第10-18页
2.1 Hadoop介绍	第10-14页
2.1.1 HDFS架构	第10-11页
2.1.2 MapReduce介绍	第11-12页
2.1.3 Yarn运行机制	第12-14页
2.2 Hive介绍	第14-16页
2.2.1 Hive的组件	第14-15页
2.2.2 Hive运行机制	第15-16页
2.3 Flume介绍	第16-17页
2.4 本章小结	第17-18页
3 需求分析	第18-22页
3.1 数据处理流程分析	第18页
3.2 功能性需求	第18-19页
3.3 非功能性需求	第19-20页
3.4 用例设计	第20页
3.5 本章小结	第20-22页
4 系统设计	第22-27页
4.1 系统总体架构	第22页
4.2 系统功能模块设计	第22-26页
4.2.1 数据采集模块设计	第22-23页
4.2.2 数据处理及存储模块设计	第23-25页
4.2.3 数据同步模块设计	第25页
4.2.4 系统调度模块设计	第25-26页
4.3 本章小结	第26-27页
5 数据处理Hive QL优化	第27-43页
5.1 Hadoop计算框架的特点	第27页
5.2 Hive的优化约定及实际示例	第27-35页
5.2.1 列裁剪（Column Pruning）	第27-28页
5.2.2 分区裁剪（Partition Pruning）	第28-29页
5.2.3 Hive中的Join操作	第29-30页
5.2.4 Map-Side Join优化	第30-31页
5.2.5 Hive可以避免进行MapReduce的情况	第31-32页
5.2.6 全局排序	第32-33页
5.2.7 笛卡尔积	第33-34页
5.2.8 Hive中mapper和reduce的个数	第34页
5.2.9 Hive中的Group By操作	第34-35页
5.2.10 合并小文件	第35页
5.3 实际Hive QL优化典型案例分析	第35-42页
5.3.1 对虚假号码业务Hive QL的优化分析	第35-39页
5.3.2 Union All的优化	第39-40页
5.3.3 充分利用Map-Side Join	第40-42页
5.4 本章小结	第42-43页
6 系统实现与测试	第43-60页
6.1 大数据处理平台搭建	第43-47页
6.1.1 Hadoop版本选择	第43-44页
6.1.2 集群环境	第44页
6.1.3 集群节点分配	第44-45页
6.1.4 服务器环境配置	第45-46页
6.1.5 安装CDH集群	第46-47页
6.2 系统模块实现	第47-58页
6.2.1 数据采集模块的实现	第47-51页
6.2.2 数据处理及存储模块的实现	第51-55页
6.2.3 数据同步模块的实现	第55-56页
6.2.4 系统调度模块的实现	第56-58页
6.3 系统性能测试	第58-59页
6.3.1 测试环境	第58页
6.3.2 性能测试	第58-59页
6.4 本章小结	第59-60页
结论	第60-61页
参考文献	第61-63页
致谢	第63-65页