| 摘要 | 第1-5页 |
| Abstract | 第5-7页 |
| 目录 | 第7-9页 |
| 第1章 绪论 | 第9-22页 |
| ·研究背景 | 第9-10页 |
| ·国内外研究现状 | 第10-19页 |
| ·主流并行计算框架及云平台对存在计算依赖的作业的支持 | 第10-13页 |
| ·基于 MPI 的多层容错高性能云计算平台 | 第13页 |
| ·基于检查点的卷回恢复协议及其实现 | 第13-19页 |
| ·研究意义及研究内容 | 第19-21页 |
| ·本文的研究意义 | 第19-20页 |
| ·本文的研究内容 | 第20-21页 |
| ·论文组织 | 第21-22页 |
| 第2章 存在计算依赖的作业编程模型及关键技术研究 | 第22-46页 |
| ·存在计算依赖的作业的编程模型及其表示方法 | 第22-30页 |
| ·存在计算依赖作业的定义 | 第22-23页 |
| ·基于有向图的存在计算依赖的作业的编程模型 | 第23-28页 |
| ·计算顶点依赖图的定义规范 | 第28-29页 |
| ·计算顶点的顺序执行程序的结构及编写规范 | 第29-30页 |
| ·编程模型所对应的并行计算框架核心过程 | 第30-31页 |
| ·任务调度及应用层级别 KeepAlive 机制 | 第31-33页 |
| ·任务调度思想 | 第31-32页 |
| ·应用层级别 KeepAlive 机制 | 第32-33页 |
| ·不共享通信域的 Worker 间通信机制 | 第33-35页 |
| ·改进的基于通信引发检查点的卷回恢复协议 | 第35-45页 |
| ·用户导向的单独进程检查点设置工具 | 第35-36页 |
| ·改进的通信引发的检查点设置协议 | 第36-42页 |
| ·改进的进程出错恢复协议 | 第42-45页 |
| ·本章小结 | 第45-46页 |
| 第3章 原型系统设计与实现 | 第46-78页 |
| ·原型系统总体设计 | 第46-51页 |
| ·作业提交模块设计与实现 | 第51-52页 |
| ·作业管理模块设计与实现 | 第52-54页 |
| ·作业调度模块及共享库分发模块设计与实现 | 第54-58页 |
| ·集群节点资源信息采集模块设计与实现 | 第58-59页 |
| ·任务调度模块及任务解析模块设计与实现 | 第59-63页 |
| ·任务调度模块设计与实现 | 第59-62页 |
| ·任务解析模块设计与实现 | 第62-63页 |
| ·任务执行模块及名字服务器相关模块设计与实现 | 第63-68页 |
| ·任务执行模块设计与实现 | 第63-68页 |
| ·名字服务器相关模块设计与实现 | 第68页 |
| ·基于 MPI 的改进的通信库及相关模块设计与实现 | 第68-77页 |
| ·检查点设置模块设计与实现 | 第68-69页 |
| ·检查点服务器代理模块设计与实现 | 第69-70页 |
| ·检查点服务器模块设计与实现 | 第70页 |
| ·基于 MPI 的改进通信库设计与实现 | 第70-77页 |
| ·本章小结 | 第77-78页 |
| 第4章 系统应用与测试 | 第78-98页 |
| ·问题描述与建模 | 第78-79页 |
| ·作业的构建与框架的使用 | 第79-87页 |
| ·作业计算顶点依赖图的定义 | 第79-80页 |
| ·计算顶点 JoinX 的设计与实现 | 第80-83页 |
| ·计算顶点 Division 的设计与实现 | 第83-84页 |
| ·计算顶点 MergeandSort 的设计与实现 | 第84-85页 |
| ·计算顶点 JoinY 的设计与实现 | 第85-86页 |
| ·计算顶点 Collection 的设计与实现 | 第86-87页 |
| ·作业的原生 MPI 方式版本的设计与实现 | 第87-88页 |
| ·测试环境及原型系统的部署 | 第88-89页 |
| ·Linux 下 MPICH3 集群的构建 | 第88页 |
| ·原型系统的部署 | 第88-89页 |
| ·原型系统测试结果及分析 | 第89-97页 |
| ·原型系统测试结果 | 第89-94页 |
| ·原生 MPI 方式编写的作业的测试结果 | 第94-95页 |
| ·测试结果的分析与对比 | 第95-97页 |
| ·本章小结 | 第97-98页 |
| 第5章 总结与展望 | 第98-100页 |
| ·论文总结 | 第98-99页 |
| ·工作展望 | 第99-100页 |
| 致谢 | 第100-101页 |
| 参考文献 | 第101-103页 |