致谢 | 第3-5页 |
摘要 | 第5-6页 |
Abstract | 第6页 |
第一章 引言 | 第9-19页 |
1.1 分布式计算概述 | 第9-10页 |
1.1.1 中间件技术 | 第9-10页 |
1.1.2 网格计算 | 第10页 |
1.2 Hadoop磁盘计算框架 | 第10-13页 |
1.3 Spark内存计算框架 | 第13-16页 |
1.3.1 Spark简述 | 第13-14页 |
1.3.2 Spark job工作机制 | 第14-15页 |
1.3.3 Spark代码架构 | 第15-16页 |
1.3.4 Spark核心思想 | 第16页 |
1.4 本文贡献 | 第16-17页 |
1.5 论文的组织 | 第17-19页 |
第二章 Hadoop配置参数优化技术 | 第19-21页 |
2.1 MapReduce执行流程简介 | 第19页 |
2.2 Hadoop优化技术 | 第19-21页 |
第三章 Spark优化技术 | 第21-25页 |
3.1 调度优化 | 第21-22页 |
3.2 内存存储优化 | 第22-23页 |
3.3 网络传输优化 | 第23页 |
3.4 I/O优化 | 第23-24页 |
3.5 其他优化方式 | 第24-25页 |
第四章 基于机器学习的Spark配置参数自动优化技术实现 | 第25-35页 |
4.1 方法架构 | 第25-32页 |
4.1.1 收集数据阶段 | 第25-31页 |
4.1.2 建模阶段 | 第31页 |
4.1.3 搜索最优配置阶段 | 第31-32页 |
4.2 方法介绍 | 第32-35页 |
4.2.1 机器学习方法介绍 | 第32-35页 |
第五章 实验与评价 | 第35-47页 |
5.1 搭建实验环境 | 第35-36页 |
5.2 实验任务 | 第36-39页 |
5.2.1 确定配置参数对性能的影响 | 第36-37页 |
5.2.2 基于机器学习的Spark配置参数自动优化实现 | 第37-39页 |
5.3 实验结果与分析 | 第39-47页 |
5.3.1 确定9)0)0) | 第39-40页 |
5.3.2 遗传算法迭代次数 | 第40-41页 |
5.3.3 模型精度 | 第41-42页 |
5.3.4 误差分布 | 第42页 |
5.3.5 加速比 | 第42-43页 |
5.3.6 最佳配置参数 | 第43-45页 |
5.3.7 详细分析 | 第45-46页 |
5.3.8 时间开销 | 第46-47页 |
第六章 总结 | 第47-50页 |
6.1 本文工作总结 | 第47-48页 |
6.2 下一步研究方向 | 第48-50页 |
参考文献 | 第50-54页 |
个人简历、在学期间发表的学术论文与研究成果 | 第54页 |