摘要 | 第1-5页 |
Abstract | 第5-6页 |
目录 | 第6-9页 |
第一章 引言 | 第9-13页 |
·背景 | 第9-10页 |
·问题的提出 | 第10-11页 |
·解决思路 | 第11页 |
·主要工作 | 第11-12页 |
·论文组织 | 第12-13页 |
第二章 Hadoop实现原理与性能调优策略 | 第13-25页 |
·Hadoop的特性与优势 | 第13-14页 |
·HDFS系统 | 第14-16页 |
·Hadoop文件系统 | 第14页 |
·Hadoop体系结构 | 第14-15页 |
·Hadoop计算方式 | 第15-16页 |
·数据存取策略 | 第16页 |
·Hadoop技术应用 | 第16页 |
·Hadoop作业调优 | 第16-25页 |
·Map side tuning参数 | 第16-21页 |
·Reduce side tuning参数 | 第21-25页 |
第三章 数据仓库基础框架——Hive | 第25-34页 |
·Hive的部分约定优化及SQL逻辑实现 | 第25-28页 |
·Hive定义 | 第25页 |
·Hive和数据库的异同 | 第25-28页 |
·部分查询逻辑实现举例 | 第28页 |
·全排序 | 第28-31页 |
·笛卡尔积 | 第31页 |
·exist in子句 | 第31-32页 |
·Hive中reducer个数的分配情况 | 第32页 |
·合并Map/Reduce操作 | 第32-34页 |
第四章 Hive代码调优方案及分析 | 第34-56页 |
·调优环境 | 第34页 |
·代码优化方向 | 第34-35页 |
·Hadoop计算框架的特点 | 第35页 |
·内部自带优化方式 | 第35-39页 |
·列裁剪(Column Pruning) | 第35-36页 |
·分区裁剪(Partition Pruning) | 第36页 |
·Join | 第36-37页 |
·Map Join | 第37-38页 |
·group by | 第38-39页 |
·合并小文件 | 第39页 |
·外部代码调整常用优化方式典型案例分析 | 第39-56页 |
·熟练地使用SQL提高查询效率 | 第40-41页 |
·无效id在关联时的倾斜问题 | 第41-42页 |
·不同数据类型关联产生的倾斜问题 | 第42页 |
·利用Hive对union all优化的特性 | 第42-43页 |
·解决Hive对union all优化的短板 | 第43-45页 |
·利用group by替代count(distinct)达到优化效果 | 第45-47页 |
·利用Hive中的union all特性减少Map/Reduce个数 | 第47-48页 |
·对Hive优化模块(union all)的建议 | 第48页 |
·数据倾斜的解决方法 | 第48-49页 |
·map join的深度使用 | 第49-50页 |
·使用组合KEY均分倾斜的记录 | 第50-51页 |
·uv问题的求解 | 第51-56页 |
第五章 总结和展望 | 第56-58页 |
致谢 | 第58-59页 |
参考文献 | 第59-61页 |