并行计算环境中基于检查点的卷回恢复技术研究

摘要	第1-5页
ABSTRACT	第5-10页
第一章绪论	第10-17页
·研究背景	第10-11页
·研究意义	第11-12页
·研究现状	第12-15页
·典型的单进程检查点系统	第13-14页
·典型的并行检查点系统	第14-15页
·研究内容	第15-17页
第二章并行计算环境中基于检查点的卷回恢复协议	第17-27页
·基本概念	第17-21页
·并行计算环境中的检查点协议	第21-23页
·非合作式检查点协议	第21页
·通信诱导式检查点协议	第21-22页
·合作式检查点协议	第22-23页
·并行计算环境中的日志协议	第23-25页
·基本原理	第23-24页
·乐观日志	第24页
·悲观日志	第24页
·因果日志	第24-25页
·协议的时间开销分析	第25-26页
·小结	第26-27页
第三章基于可行全局状态的检查点协议	第27-47页
·基于协调消息的合作式检查点协议	第27-33页
·合作式检查点协议的优势	第27-28页
·DS 协议	第28-29页
·SS 协议	第29-33页
·改进的合作式检查点协议	第33-36页
·基于附带消息技术的非阻塞式检查点协议	第33-34页
·参与进程数量最少的合作式检查点协议	第34-36页
·协议分析	第36页
·基于可行全局状态的合作式检查点协议	第36-46页
·可行全局状态的概念	第37页
·协议的基本原理	第37-39页
·协议的数据结构	第39-40页
·协议的工作流程	第40-44页
·进一步讨论	第44-46页
·本章小结	第46-47页
第四章 MPICH2 中错误检测与自动恢复功能的实现	第47-58页
·MPI 与MPICH2	第47-49页
·MPD 的基本结构与功能	第49-52页
·基本结构	第49-50页
·基本功能	第50-51页
·实现原理	第51-52页
·改进的MPD 系统结构	第52-53页
·系统控制器	第52-53页
·节点控制器	第53页
·基于MPD 事件处理机制的错误探测与自动恢复	第53-56页
·基本原理	第53-54页
·初始化过程	第54-55页
·进程错误检测	第55页
·节点错误检测	第55-56页
·自动恢复过程	第56页
·错误检测机制引入的时间开销测试	第56-57页
·本章小结	第57-58页
第五章基于检查点机制的容错功能实现与实验	第58-66页
·检查点协议在MPICH2 MPD 中的实现	第58-61页
·系统基本结构	第58-60页
·进程状态变迁	第60-61页
·实验验证	第61-65页
·实验平台	第61页
·实验用例	第61-62页
·实验结果及分析	第62-65页
·本章小结	第65-66页
第六章总结与展望	第66-68页
·论文工作总结	第66-67页
·进一步研究方向	第67-68页
致谢	第68-69页
参考文献	第69-73页