基于hive的性能优化方法的研究与实践

摘要	第1-5页
Abstract	第5-6页
目录	第6-9页
第一章引言	第9-13页
·背景	第9-10页
·问题的提出	第10-11页
·解决思路	第11页
·主要工作	第11-12页
·论文组织	第12-13页
第二章 Hadoop实现原理与性能调优策略	第13-25页
·Hadoop的特性与优势	第13-14页
·HDFS系统	第14-16页
·Hadoop文件系统	第14页
·Hadoop体系结构	第14-15页
·Hadoop计算方式	第15-16页
·数据存取策略	第16页
·Hadoop技术应用	第16页
·Hadoop作业调优	第16-25页
·Map side tuning参数	第16-21页
·Reduce side tuning参数	第21-25页
第三章数据仓库基础框架——Hive	第25-34页
·Hive的部分约定优化及SQL逻辑实现	第25-28页
·Hive定义	第25页
·Hive和数据库的异同	第25-28页
·部分查询逻辑实现举例	第28页
·全排序	第28-31页
·笛卡尔积	第31页
·exist in子句	第31-32页
·Hive中reducer个数的分配情况	第32页
·合并Map/Reduce操作	第32-34页
第四章 Hive代码调优方案及分析	第34-56页
·调优环境	第34页
·代码优化方向	第34-35页
·Hadoop计算框架的特点	第35页
·内部自带优化方式	第35-39页
·列裁剪(Column Pruning)	第35-36页
·分区裁剪(Partition Pruning)	第36页
·Join	第36-37页
·Map Join	第37-38页
·group by	第38-39页
·合并小文件	第39页
·外部代码调整常用优化方式典型案例分析	第39-56页
·熟练地使用SQL提高查询效率	第40-41页
·无效id在关联时的倾斜问题	第41-42页
·不同数据类型关联产生的倾斜问题	第42页
·利用Hive对union all优化的特性	第42-43页
·解决Hive对union all优化的短板	第43-45页
·利用group by替代count(distinct)达到优化效果	第45-47页
·利用Hive中的union all特性减少Map/Reduce个数	第47-48页
·对Hive优化模块(union all)的建议	第48页
·数据倾斜的解决方法	第48-49页
·map join的深度使用	第49-50页
·使用组合KEY均分倾斜的记录	第50-51页
·uv问题的求解	第51-56页
第五章总结和展望	第56-58页
致谢	第58-59页
参考文献	第59-61页