摘要 | 第1-5页 |
Abstract | 第5-7页 |
目录 | 第7-9页 |
第1章 绪论 | 第9-22页 |
·研究背景 | 第9-10页 |
·国内外研究现状 | 第10-19页 |
·主流并行计算框架及云平台对存在计算依赖的作业的支持 | 第10-13页 |
·基于 MPI 的多层容错高性能云计算平台 | 第13页 |
·基于检查点的卷回恢复协议及其实现 | 第13-19页 |
·研究意义及研究内容 | 第19-21页 |
·本文的研究意义 | 第19-20页 |
·本文的研究内容 | 第20-21页 |
·论文组织 | 第21-22页 |
第2章 存在计算依赖的作业编程模型及关键技术研究 | 第22-46页 |
·存在计算依赖的作业的编程模型及其表示方法 | 第22-30页 |
·存在计算依赖作业的定义 | 第22-23页 |
·基于有向图的存在计算依赖的作业的编程模型 | 第23-28页 |
·计算顶点依赖图的定义规范 | 第28-29页 |
·计算顶点的顺序执行程序的结构及编写规范 | 第29-30页 |
·编程模型所对应的并行计算框架核心过程 | 第30-31页 |
·任务调度及应用层级别 KeepAlive 机制 | 第31-33页 |
·任务调度思想 | 第31-32页 |
·应用层级别 KeepAlive 机制 | 第32-33页 |
·不共享通信域的 Worker 间通信机制 | 第33-35页 |
·改进的基于通信引发检查点的卷回恢复协议 | 第35-45页 |
·用户导向的单独进程检查点设置工具 | 第35-36页 |
·改进的通信引发的检查点设置协议 | 第36-42页 |
·改进的进程出错恢复协议 | 第42-45页 |
·本章小结 | 第45-46页 |
第3章 原型系统设计与实现 | 第46-78页 |
·原型系统总体设计 | 第46-51页 |
·作业提交模块设计与实现 | 第51-52页 |
·作业管理模块设计与实现 | 第52-54页 |
·作业调度模块及共享库分发模块设计与实现 | 第54-58页 |
·集群节点资源信息采集模块设计与实现 | 第58-59页 |
·任务调度模块及任务解析模块设计与实现 | 第59-63页 |
·任务调度模块设计与实现 | 第59-62页 |
·任务解析模块设计与实现 | 第62-63页 |
·任务执行模块及名字服务器相关模块设计与实现 | 第63-68页 |
·任务执行模块设计与实现 | 第63-68页 |
·名字服务器相关模块设计与实现 | 第68页 |
·基于 MPI 的改进的通信库及相关模块设计与实现 | 第68-77页 |
·检查点设置模块设计与实现 | 第68-69页 |
·检查点服务器代理模块设计与实现 | 第69-70页 |
·检查点服务器模块设计与实现 | 第70页 |
·基于 MPI 的改进通信库设计与实现 | 第70-77页 |
·本章小结 | 第77-78页 |
第4章 系统应用与测试 | 第78-98页 |
·问题描述与建模 | 第78-79页 |
·作业的构建与框架的使用 | 第79-87页 |
·作业计算顶点依赖图的定义 | 第79-80页 |
·计算顶点 JoinX 的设计与实现 | 第80-83页 |
·计算顶点 Division 的设计与实现 | 第83-84页 |
·计算顶点 MergeandSort 的设计与实现 | 第84-85页 |
·计算顶点 JoinY 的设计与实现 | 第85-86页 |
·计算顶点 Collection 的设计与实现 | 第86-87页 |
·作业的原生 MPI 方式版本的设计与实现 | 第87-88页 |
·测试环境及原型系统的部署 | 第88-89页 |
·Linux 下 MPICH3 集群的构建 | 第88页 |
·原型系统的部署 | 第88-89页 |
·原型系统测试结果及分析 | 第89-97页 |
·原型系统测试结果 | 第89-94页 |
·原生 MPI 方式编写的作业的测试结果 | 第94-95页 |
·测试结果的分析与对比 | 第95-97页 |
·本章小结 | 第97-98页 |
第5章 总结与展望 | 第98-100页 |
·论文总结 | 第98-99页 |
·工作展望 | 第99-100页 |
致谢 | 第100-101页 |
参考文献 | 第101-103页 |