| 摘要 | 第1-5页 |
| Abstract | 第5-6页 |
| 目录 | 第6-9页 |
| 第一章 引言 | 第9-13页 |
| ·背景 | 第9-10页 |
| ·问题的提出 | 第10-11页 |
| ·解决思路 | 第11页 |
| ·主要工作 | 第11-12页 |
| ·论文组织 | 第12-13页 |
| 第二章 Hadoop实现原理与性能调优策略 | 第13-25页 |
| ·Hadoop的特性与优势 | 第13-14页 |
| ·HDFS系统 | 第14-16页 |
| ·Hadoop文件系统 | 第14页 |
| ·Hadoop体系结构 | 第14-15页 |
| ·Hadoop计算方式 | 第15-16页 |
| ·数据存取策略 | 第16页 |
| ·Hadoop技术应用 | 第16页 |
| ·Hadoop作业调优 | 第16-25页 |
| ·Map side tuning参数 | 第16-21页 |
| ·Reduce side tuning参数 | 第21-25页 |
| 第三章 数据仓库基础框架——Hive | 第25-34页 |
| ·Hive的部分约定优化及SQL逻辑实现 | 第25-28页 |
| ·Hive定义 | 第25页 |
| ·Hive和数据库的异同 | 第25-28页 |
| ·部分查询逻辑实现举例 | 第28页 |
| ·全排序 | 第28-31页 |
| ·笛卡尔积 | 第31页 |
| ·exist in子句 | 第31-32页 |
| ·Hive中reducer个数的分配情况 | 第32页 |
| ·合并Map/Reduce操作 | 第32-34页 |
| 第四章 Hive代码调优方案及分析 | 第34-56页 |
| ·调优环境 | 第34页 |
| ·代码优化方向 | 第34-35页 |
| ·Hadoop计算框架的特点 | 第35页 |
| ·内部自带优化方式 | 第35-39页 |
| ·列裁剪(Column Pruning) | 第35-36页 |
| ·分区裁剪(Partition Pruning) | 第36页 |
| ·Join | 第36-37页 |
| ·Map Join | 第37-38页 |
| ·group by | 第38-39页 |
| ·合并小文件 | 第39页 |
| ·外部代码调整常用优化方式典型案例分析 | 第39-56页 |
| ·熟练地使用SQL提高查询效率 | 第40-41页 |
| ·无效id在关联时的倾斜问题 | 第41-42页 |
| ·不同数据类型关联产生的倾斜问题 | 第42页 |
| ·利用Hive对union all优化的特性 | 第42-43页 |
| ·解决Hive对union all优化的短板 | 第43-45页 |
| ·利用group by替代count(distinct)达到优化效果 | 第45-47页 |
| ·利用Hive中的union all特性减少Map/Reduce个数 | 第47-48页 |
| ·对Hive优化模块(union all)的建议 | 第48页 |
| ·数据倾斜的解决方法 | 第48-49页 |
| ·map join的深度使用 | 第49-50页 |
| ·使用组合KEY均分倾斜的记录 | 第50-51页 |
| ·uv问题的求解 | 第51-56页 |
| 第五章 总结和展望 | 第56-58页 |
| 致谢 | 第58-59页 |
| 参考文献 | 第59-61页 |