第1章 引言 | 第1-16页 |
·并行计算 | 第8-11页 |
·集群系统 | 第9-10页 |
·并行编程模型 | 第10-11页 |
·并行系统容错技术综述 | 第11-16页 |
·故障类型 | 第12页 |
·容错技术 | 第12-13页 |
·集群系统容错 | 第13-15页 |
·本文内容及主要贡献 | 第15-16页 |
第2章 CRR技术研究 | 第16-34页 |
·系统模型和故障模型 | 第16-18页 |
·理论基础 | 第18-21页 |
·一致性全局状态 | 第18-20页 |
·卷回传播与多米诺效应 | 第20-21页 |
·CRR基本实现技术 | 第21-24页 |
·保存内容 | 第21-22页 |
·如何恢复 | 第22-24页 |
·优化技术 | 第24页 |
·检查点设置协议 | 第24-30页 |
·独立的检查点设置 | 第25页 |
·协调的检查点设置 | 第25-28页 |
·阻塞式协调 | 第25-27页 |
·非阻塞式协调 | 第27-28页 |
·基于消息记录的检查点设置 | 第28-30页 |
·相关工作 | 第30-34页 |
第3章 消息传递系统MPI分析 | 第34-44页 |
·MPI简介 | 第34-35页 |
·MPICH分析 | 第35-40页 |
·MPICH简介 | 第35-36页 |
·MPICH结构解析 | 第36-40页 |
·ADI详解 | 第36-38页 |
·Channel详解 | 第38-40页 |
·MPICH中的P4 | 第40-44页 |
·P4的启动和退出 | 第40-42页 |
·P4连接建立过程 | 第42-44页 |
第4章 检查点设置和进程迁移系统ChaRM4MPI | 第44-68页 |
·系统概述 | 第44-45页 |
·系统逻辑结构和功能 | 第45-46页 |
·系统设计 | 第46-52页 |
·进程注册和退出机制 | 第47-48页 |
·总控模块和用户界面间的通讯协议 | 第48页 |
·总控模块和协调模块间的通讯协议 | 第48-49页 |
·选择检查点的时机 | 第49-52页 |
·系统实现 | 第52-61页 |
·检查点设置 | 第52-56页 |
·卷回恢复 | 第56-58页 |
·进程迁移 | 第58-61页 |
·性能测试 | 第61-68页 |
·同步时间 | 第63页 |
·检查点和卷回恢复时间 | 第63-66页 |
·进程迁移时间 | 第66-68页 |
第5章 结论 | 第68-72页 |
·研究总结 | 第68页 |
·进一步工作 | 第68-72页 |
参考文献 | 第72-76页 |
致谢及声明 | 第76-77页 |
个人简历、在学期间的研究成果及发表的论文 | 第77页 |