摘要 | 第4-5页 |
ABSTRACT | 第5-6页 |
第一章 绪论 | 第9-15页 |
1.1 课题研究目的及意义 | 第9-10页 |
1.2 国内外研究现状 | 第10-12页 |
1.3 课题研究内容 | 第12-14页 |
1.4 论文结构安排 | 第14-15页 |
第二章 海量数据处理机制相关技术研究 | 第15-31页 |
2.1 Hadoop系统框架 | 第15-20页 |
2.1.1 Hadoop File System(HDFS)分布式文件系统 | 第16-19页 |
2.1.2 MapReduce 框架 | 第19-20页 |
2.2 Hive | 第20-30页 |
2.2.1 Hive 架构 | 第21-22页 |
2.2.2 HiveQL | 第22-23页 |
2.2.3 Hive的文件存储格式 | 第23-29页 |
2.2.4 User Defined Founction | 第29-30页 |
2.3 本章小结 | 第30-31页 |
第三章 原始日志系统分析 | 第31-45页 |
3.1 系统执行日志分析 | 第31-37页 |
3.1.1 EXPLAIN 的使用 | 第31-35页 |
3.1.2 常用业务分析过程 | 第35-37页 |
3.2 系统表分析 | 第37-41页 |
3.2.1 系统常用表结构分析及表间联系 | 第37-39页 |
3.2.2 消费类交易原始表分析 | 第39-41页 |
3.3 原始系统中存储空间利用率问题总结 | 第41-42页 |
3.4 查询性能问题 | 第42-43页 |
3.5 本章总结 | 第43-45页 |
第四章 高效数据处理系统设计 | 第45-59页 |
4.1 常见数据处理优化策略 | 第45-47页 |
4.1.1 Hive查询优化 | 第45-46页 |
4.1.2 文件格式的优化 | 第46-47页 |
4.2 系统设计目标 | 第47-48页 |
4.3 逻辑结构设计优化 | 第48-52页 |
4.3.1 单一物理表与多视图结构 | 第48页 |
4.3.2 详细优化步骤 | 第48-52页 |
4.4 物理结构优化 | 第52-53页 |
4.4.1 存储格式优化 | 第52-53页 |
4.4.2 文件内部的数据存储顺序 | 第53页 |
4.5 系统架构优化 | 第53-57页 |
4.5.1 原有系统架构 | 第53-55页 |
4.5.2 优化后系统架构 | 第55-57页 |
4.6 本章小结 | 第57-59页 |
第五章 系统实现与测试 | 第59-75页 |
5.1 逻辑结构优化实现 | 第59-61页 |
5.2 Morcfile 的实现 | 第61-65页 |
5.3 系统优化步骤 | 第65-66页 |
5.4 系统测试与可行性分析 | 第66-73页 |
5.4.1 不同存储格式存储空间性能测试 | 第67-70页 |
5.4.2 不同存储格式查询效率测试 | 第70-73页 |
5.5 本章小结 | 第73-75页 |
第六章 总结及展望 | 第75-77页 |
6.1 论文工作总结 | 第75页 |
6.2 后续工作展望 | 第75-77页 |
参考文献 | 第77-79页 |
致谢 | 第79-81页 |
作者攻读学位期间发表的学术论文目录 | 第81页 |