摘要 | 第4-5页 |
Abstract | 第5-6页 |
第1章 绪论 | 第10-16页 |
1.1 课题背景和研究意义 | 第10-12页 |
1.1.1 大数据处理平台的发展 | 第10页 |
1.1.2 Spark海量数据处理平台 | 第10-12页 |
1.1.3 交互式Spark应用下RDD数据动态放置的意义 | 第12页 |
1.2 国内外研究现状 | 第12-14页 |
1.3 本文的主要贡献 | 第14-15页 |
1.4 本文的组织结构 | 第15页 |
1.5 本章小结 | 第15-16页 |
第2章 相关工作 | 第16-26页 |
2.1 Spark平台概述 | 第16-19页 |
2.1.1 Spark平台架构 | 第16-17页 |
2.1.2 Spark平台计算模型和运行时环境 | 第17-18页 |
2.1.3 Spark平台缓存机制 | 第18页 |
2.1.4 Spark动态资源分配方式 | 第18-19页 |
2.2 分布式内存计算平台上的数据管理概述 | 第19-21页 |
2.2.1 Spark平台上的数据管理 | 第19-20页 |
2.2.2 其它分布式内存计算平台上的数据管理 | 第20-21页 |
2.3 大数据平台下数据放置策略概述 | 第21-24页 |
2.3.1 针对负载均衡的数据放置策略 | 第21-22页 |
2.3.2 针对数据相关性的数据放置策略 | 第22-23页 |
2.3.3 针对其他因素的数据放置策略 | 第23-24页 |
2.4 本章小结 | 第24-26页 |
第3章 缓存RDD数据动态放置策略 | 第26-36页 |
3.1 问题描述 | 第26-27页 |
3.2 缓存RDD分区的价值与放置收益评估 | 第27-31页 |
3.2.1 问题定义 | 第27-28页 |
3.2.2 缓存RDD分区的价值 | 第28-30页 |
3.2.3 缓存RDD分区的放置收益评估 | 第30-31页 |
3.3 数据放置策略 | 第31-35页 |
3.3.1 数学模型的定义 | 第31页 |
3.3.2 粒子群算法简介 | 第31-32页 |
3.3.3 基于粒子群的缓存RDD分区动态放置建模 | 第32-34页 |
3.3.4 缓存RDD分区的动态放置策略 | 第34-35页 |
3.4 本章小结 | 第35-36页 |
第4章 基于马尔可夫模型的非活跃期预测算法 | 第36-44页 |
4.1 问题描述 | 第36页 |
4.2 马尔可夫模型 | 第36-38页 |
4.2.1 马尔可夫过程 | 第36-37页 |
4.2.2 马尔可夫链 | 第37页 |
4.2.3 一步转移概率 | 第37-38页 |
4.2.4 状态转移矩阵 | 第38页 |
4.3 非活跃期预测的马尔可夫适用性分析 | 第38页 |
4.4 交互式Spark应用非活跃期预测算法 | 第38-40页 |
4.5 基于预测的数据放置触发策略 | 第40-42页 |
4.6 本章小结 | 第42-44页 |
第5章 原型系统实现 | 第44-52页 |
5.1 改造后的Spark系统架构 | 第44-45页 |
5.2 缓存RDD数据动态放置策略的实现 | 第45-49页 |
5.2.1 参数收集功能的实现 | 第45-48页 |
5.2.2 数据动态放置功能的实现 | 第48-49页 |
5.3 基于马尔可夫模型的非活跃期预测算法的实现 | 第49-50页 |
5.3.1 交互式Spark应用处于非活跃期的持续时间收集功能的实现 | 第49-50页 |
5.3.2 基于马尔可夫模型的预测功能的实现 | 第50页 |
5.4 本章小结 | 第50-52页 |
第6章 性能测试与分析 | 第52-68页 |
6.1 测试环境 | 第52页 |
6.2 测试负载的选取及实验方法 | 第52-54页 |
6.3 性能评价指标 | 第54页 |
6.4 性能测试结果及分析 | 第54-67页 |
6.4.1 单请求性能测试结果与分析 | 第54-61页 |
6.4.2 综合性能测试的测试结果与分析 | 第61-67页 |
6.5 本章小结 | 第67-68页 |
结论 | 第68-70页 |
参考文献 | 第70-74页 |
攻读硕士学位期间所发表的学术成果 | 第74-76页 |
致谢 | 第76页 |