摘要 | 第4-5页 |
Abstract | 第5页 |
第一章 绪论 | 第9-16页 |
1.1. 课题研究背景 | 第9页 |
1.2. 研究现状 | 第9-13页 |
1.2.1. 数据仓库 | 第9-10页 |
1.2.2. ETL技术概述 | 第10-12页 |
1.2.3. 元数据管理 | 第12-13页 |
1.3. 本文研究内容及意义 | 第13-14页 |
1.4. 论文结构 | 第14-16页 |
第二章 分布式开源软件介绍 | 第16-25页 |
2.1. Hadoop集群架构 | 第16页 |
2.2. 实时日志收集处理系统—Flume-ng与Kakfa | 第16-19页 |
2.3. 集成ETL工具——Kettle | 第19-20页 |
2.4. 分布式列式数据库及其SQL接口—Hbase与Phoenix | 第20-24页 |
2.5. 本章小结 | 第24-25页 |
第三章 系统需求分析与元数据定义 | 第25-35页 |
3.1. 系统性能需求分析 | 第25页 |
3.2. 系统功能需求分析 | 第25-26页 |
3.3. 元数据定义 | 第26-34页 |
3.3.1. 资源元数据 | 第26-29页 |
3.3.2. 映射元数据 | 第29-32页 |
3.3.2.1. 映射关系定义 | 第29页 |
3.3.2.2. 映射规则表达 | 第29-32页 |
3.3.3. 数据仓库元数据 | 第32-34页 |
3.4. 本章小结 | 第34-35页 |
第四章 元数据驱动增量ETL系统设计 | 第35-53页 |
4.1. 系统元数据存储模型设计 | 第35-47页 |
4.1.1. 资源元数据存储模型设计 | 第35-37页 |
4.1.2. 映射元数据存储模型设计 | 第37-40页 |
4.1.2.1. 日志映射元数据存储模型设计 | 第37-38页 |
4.1.2.2. 维度数据映射元数据存储模型设计 | 第38-40页 |
4.1.3. 数据仓库元数据存储模型设计 | 第40-43页 |
4.1.3.1. 实体存储模型设计 | 第40-42页 |
4.1.3.2. 日志存储模型设计 | 第42-43页 |
4.1.4. 系统数据模型分析与示例 | 第43-47页 |
4.2. 系统架构设计 | 第47-52页 |
4.2.1. 维度数据转换子系统设计 | 第48-49页 |
4.2.2. 日志收集转换子系统设计 | 第49-51页 |
4.2.2.1. 日志收集层设计 | 第49-50页 |
4.2.2.2. 日志消费层设计 | 第50-51页 |
4.2.3. 数据存储层设计 | 第51-52页 |
4.3. 本章小结 | 第52-53页 |
第五章 元数据驱动增量ETL系统实现 | 第53-69页 |
5.1. 分布式环境搭建 | 第53-54页 |
5.2. 维度数据转换子系统实现 | 第54-58页 |
5.2.1. 项目搭建 | 第54-55页 |
5.2.2. 系统核心类 | 第55-57页 |
5.2.3. 维度数据导入策略 | 第57-58页 |
5.3. 日志收集转换子系统实现 | 第58-64页 |
5.3.1. 系统核心类 | 第58-60页 |
5.3.2. 映射规则配置 | 第60-62页 |
5.3.3. 数据库资源管理 | 第62-64页 |
5.4. 系统性能测试 | 第64-67页 |
5.4.1. 维度数据转换子系统性能测试 | 第64-65页 |
5.4.2. 日志收集转换系统性能测试 | 第65-67页 |
5.4.2.1. 横向扩展测试 | 第65-67页 |
5.4.2.2. 日志收集效率测试 | 第67页 |
5.4.2.3. 日志转换效率测试 | 第67页 |
5.5. 本章小结 | 第67-69页 |
第六章 总结与展望 | 第69-71页 |
6.1. 总结 | 第69-70页 |
6.2. 展望 | 第70-71页 |
参考文献 | 第71-74页 |
致谢 | 第74页 |