MPI环境下多副本容错技术研究

摘要	第5-6页
ABSTRACT	第6页
第一章绪论	第11-15页
1.1 研究背景	第11-13页
1.1.1 并行计算概述	第11-12页
1.1.2 研究现状	第12-13页
1.1.3 研究目的和意义	第13页
1.2 本文的主要工作	第13-14页
1.3 论文组织结构	第14-15页
第二章相关研究	第15-22页
2.1 故障检测	第15-17页
2.1.1 检测协议	第15-16页
2.1.1.1 “推”协议和“拉”协议	第15-16页
2.1.1.2 gossip协议	第16页
2.1.2 检测器结构	第16-17页
2.2 容错技术	第17-21页
2.2.1 检查点/回滚技术	第17页
2.2.2 冗余技术	第17-20页
2.2.3 现有容错技术小结	第20-21页
2.3 本章小结	第21-22页
第三章 R-MPI的系统模型	第22-28页
3.1 问题描述	第22-23页
3.2 系统模型	第23-27页
3.2.1 符号/名称描述	第23-24页
3.2.2 故障模型	第24-25页
3.2.3 系统结构模型	第25-26页
3.2.4 消息交互模型	第26-27页
3.3 本章小结	第27-28页
第四章 R-MPI冗余容错设计	第28-36页
4.1 冗余系统发生故障的概率分析	第28-30页
4.1.1 静态冗余系统的故障概率分析	第28-29页
4.1.2 动态冗余系统的故障概率分析	第29-30页
4.2 R-MPI的冗余容错协议	第30-35页
4.2.1 逻辑组的创建	第31页
4.2.2 过滤器的设计	第31-32页
4.2.3 无节点失效时的容错协议	第32-33页
4.2.4 有节点失效时的容错协议	第33-35页
4.2.4.1 节点失效的检测	第34页
4.2.4.2 失效节点退出逻辑组	第34页
4.2.4.3 新节点加入逻辑组	第34-35页
4.3 R-MPI冗余容错策略小结	第35页
4.4 本章小结	第35-36页
第五章系统设计与实现	第36-50页
5.1 系统概述	第36页
5.2 系统设计	第36-41页
5.2.1 R-MPI总控模块的设计	第36-37页
5.2.2 R-MPI控制模块的设计	第37-38页
5.2.3 R-MPI监控模块的设计	第38-39页
5.2.4 R-MPI协调模块的设计	第39-40页
5.2.5 MPI接口函数设计	第40页
5.2.6 可配置冗余的设计	第40-41页
5.3 系统实现	第41-48页
5.3.1 总控模块的实现	第42-43页
5.3.2 控制模块的实现	第43-44页
5.3.3 监控模块的实现	第44-45页
5.3.4 协调模块的实现	第45页
5.3.5 MPI接口函数的实现	第45-48页
5.4 本章小结	第48-50页
第六章实验评估与分析	第50-58页
6.1 实验环境	第50页
6.2 实验方法	第50-51页
6.2.1 原型系统实验	第51页
6.2.2 系统仿真实验	第51页
6.3 实验结果以及分析	第51-57页
6.3.1 原型系统实验	第51-56页
6.3.1.1 效率对比实验	第51-54页
6.3.1.2 容错能力实验	第54-55页
6.3.1.3 有效消息占比	第55-56页
6.3.2 大规模仿真实验	第56-57页
6.4 本章小结	第57-58页
第七章总结与展望	第58-59页
7.1 论文总结	第58页
7.2 未来工作	第58-59页
参考文献	第59-62页
致谢	第62页