摘要 | 第6-8页 |
Abstract | 第8-10页 |
第1章 绪论 | 第16-38页 |
1.1 问题的提出 | 第16页 |
1.2 数据仓库技术 | 第16-22页 |
1.2.1 数据仓库的定义 | 第18页 |
1.2.2 数据仓库的特点 | 第18-19页 |
1.2.3 数据仓库的体系结构 | 第19-20页 |
1.2.4 数据仓库的模型 | 第20-22页 |
1.3 实时数据仓库技术 | 第22-27页 |
1.3.1 实时数据仓库的定义 | 第22-24页 |
1.3.2 实时数据仓库的新挑战 | 第24页 |
1.3.3 实时数据仓库的体系结构 | 第24-26页 |
1.3.4 实时数据仓库与传统数据仓库的比较 | 第26-27页 |
1.4 MapReduce技术 | 第27-35页 |
1.4.1 MapReduce编程模式 | 第27-28页 |
1.4.2 MapReduce框架的实现 | 第28-30页 |
1.4.3 Hadoop | 第30-35页 |
1.5 本文的主要研究内容与组织结构 | 第35-38页 |
1.5.1 主要研究内容 | 第35-37页 |
1.5.2 本文组织结构 | 第37-38页 |
第2章 实时数据仓库体系结构的研究 | 第38-54页 |
2.1 实时数据仓库体系结构的设计 | 第38-41页 |
2.2 ODS分区 | 第41-43页 |
2.3 双镜像交替分区 | 第43-44页 |
2.4 数据仓库副本分区 | 第44-46页 |
2.5 多级缓存分区机制 | 第46-51页 |
2.5.1 缓存的数据新鲜度 | 第48页 |
2.5.2 缓存的更新算法 | 第48-49页 |
2.5.3 多级缓存分区机制的查询 | 第49-50页 |
2.5.4 查询冲突问题的解决 | 第50-51页 |
2.6 几种实时存储区的比较 | 第51-53页 |
2.7 小结 | 第53-54页 |
第3章 基于优先级的更新与查询平衡调度 | 第54-70页 |
3.1 引言 | 第54-56页 |
3.2 相关工作 | 第56-57页 |
3.3 系统模型 | 第57-59页 |
3.3.1 变化数据捕获CDC | 第57页 |
3.3.2 任务队列 | 第57-58页 |
3.3.3 更新调度器与查询调度器 | 第58页 |
3.3.4 查询更新平衡调度器 | 第58页 |
3.3.5 反馈控制器 | 第58-59页 |
3.3.6 并行任务控制器与数据仓库 | 第59页 |
3.4 在线日志捕获数据 | 第59-62页 |
3.4.1 捕获变化数据过程 | 第59-60页 |
3.4.2 对变化数据的处理 | 第60-62页 |
3.5 系统性能参数 | 第62页 |
3.6 PBBS调度算法 | 第62-65页 |
3.6.1 第一层调度 | 第62-64页 |
3.6.2 第二层调度 | 第64-65页 |
3.7 并行一致性控制策略 | 第65页 |
3.8 实验分析 | 第65-69页 |
3.8.1 实验设置 | 第66页 |
3.8.2 性能评价 | 第66-67页 |
3.8.3 系统参数BF和P_(inc)的分析 | 第67-69页 |
3.9 小结 | 第69-70页 |
第4章 支持QoS的更新和查询任务调度 | 第70-86页 |
4.1 引言 | 第70-71页 |
4.2 系统模型 | 第71-76页 |
4.2.1 查询QOS参数 | 第71-72页 |
4.2.2 系统结构 | 第72页 |
4.2.3 系统的任务模型 | 第72-73页 |
4.2.4 任务调度 | 第73-74页 |
4.2.5 系统QOS保证相关的性能参数 | 第74-76页 |
4.3 查询任务的时间估算 | 第76-77页 |
4.4 调度算法 | 第77-80页 |
4.4.1 查询更新平衡调度 | 第77-78页 |
4.4.2 任务调度 | 第78-80页 |
4.5 实验分析 | 第80-85页 |
4.5.1 性能评价 | 第81-83页 |
4.5.2 批量更新对系统性能的影响 | 第83-84页 |
4.5.3 查询任务的QoS平衡因子bf分析 | 第84-85页 |
4.6 小结 | 第85-86页 |
第5章 基于MapReduce的数据仓库并行查询 | 第86-108页 |
5.1 引言 | 第86-87页 |
5.2 相关工作 | 第87-88页 |
5.3 MapReduce的基本流程 | 第88-89页 |
5.4 基于MapReduce的并行关系运算 | 第89-95页 |
5.4.1 选择和投影运算 | 第89-90页 |
5.4.2 连接运算 | 第90-92页 |
5.4.3 除运算 | 第92-94页 |
5.4.4 聚集运算 | 第94-95页 |
5.5 基于分块结构的分布式数据库ChunkDB | 第95-101页 |
5.5.1 ChunkDB的整体架构 | 第95-96页 |
5.5.2 ChunkDB分布式数据库 | 第96-101页 |
5.6 基于ChunkDB数据库的MapReduce计算 | 第101-103页 |
5.6.1 基于ChunkDB的MapReduce计算实现流程 | 第101-102页 |
5.6.2 DBInputFormat数据接口扩展 | 第102-103页 |
5.7 实验评估 | 第103-107页 |
5.7.1 实验环境 | 第103-104页 |
5.7.2 查询性能评价 | 第104-106页 |
5.7.3 集群规模的影响 | 第106-107页 |
5.8 小结 | 第107-108页 |
第6章 基于MapReduce的并行Dwar数据立方 | 第108-126页 |
6.1 引言 | 第108-109页 |
6.2 相关工作 | 第109-110页 |
6.3 基础知识 | 第110-113页 |
6.3.1 数据立方Cube | 第110-111页 |
6.3.2 Dwarf数据立方 | 第111-112页 |
6.3.3 MapReduce | 第112-113页 |
6.4 基于MapReduce的数据立方构建 | 第113-114页 |
6.5 Dwarf立方的分割 | 第114-115页 |
6.5.1 Dwarf立方的基础划分 | 第114-115页 |
6.5.2 Dwarf立方的多维划分 | 第115页 |
6.6 并行Dwarf数据立方 | 第115-121页 |
6.6.1 并行Dwar的建立 | 第115-118页 |
6.6.2 并行Dwarf的查询 | 第118页 |
6.6.3 并行Dwar的更新 | 第118-119页 |
6.6.4 并行Dwar的优化 | 第119-121页 |
6.7 实验分析 | 第121-125页 |
6.7.1 实验设置 | 第121页 |
6.7.2 Dwarf的建立和存储性能 | 第121-123页 |
6.7.3 Dwarf立方的查询性能 | 第123-124页 |
6.7.4 Dwarf立方的更新性能 | 第124页 |
6.7.5 集群节点数量的影响 | 第124-125页 |
6.8 小结 | 第125-126页 |
第7章 MR-RTDWH系统的设计与实现 | 第126-136页 |
7.1 引言 | 第126-127页 |
7.2 MR-RTDWH的系统设计 | 第127-134页 |
7.2.1 系统设计目标 | 第127-128页 |
7.2.2 系统体系结构 | 第128-129页 |
7.2.3 传统ETL模块 | 第129-130页 |
7.2.4 实时ETL模块 | 第130-132页 |
7.2.5 实时数据仓库存储 | 第132页 |
7.2.6 更新查询调度模块 | 第132-133页 |
7.2.7 MapReduce并行计算模块 | 第133-134页 |
7.3 MR-RTDWH的系统实现 | 第134-135页 |
7.4 小结 | 第135-136页 |
第8章 结论 | 第136-138页 |
8.1 本文的主要贡献与结论 | 第136-137页 |
8.2 进一步的工作 | 第137-138页 |
参考文献 | 第138-148页 |
致谢 | 第148-150页 |
攻博期间发表的论文 | 第150-152页 |
攻博期间参与的项目 | 第152-154页 |
作者简介 | 第154页 |