异构并行计算机容错技术研究

摘要	第1-12页
Abstract	第12-14页
第一章绪论	第14-36页
·课题背景	第14-22页
·异构并行计算机的兴起	第14-17页
·大规模并行系统的可靠性问题	第17-19页
·大规模异构并行计算机面临的可靠性挑战	第19-22页
·容错研究基础	第22-24页
·容错基本概念	第22-23页
·故障类型	第23-24页
·故障模型	第24页
·相关研究工作	第24-31页
·容错常用方法	第24-26页
·Rollback-recovery 容错技术分析	第26-27页
·TMR 容错技术分析	第27-28页
·Checkpointing 容错技术分析	第28-29页
·优化checkpoint 的相关研究	第29-30页
·异构并行计算机现有容错方法	第30-31页
·本文主要研究内容	第31-33页
·本文主要工作和创新	第33-34页
·论文结构	第34-36页
第二章计算可接受模型	第36-48页
·面向一般计算系统的计算可接受模型	第36-38页
·面向异构并行计算系统的计算可接受模型	第38-40页
·容错机制对异构系统可接受度的影响	第40-46页
·带TMR 异构系统可接受模型分析	第40-43页
·带C/R 异构系统可接受模型分析	第43-46页
·本章小结	第46-48页
第三章基于异构系统故障传播行为分析的应用级checkpoint 的数据量优化方法	第48-68页
·问题背景	第48-53页
·CG 调用	第48-50页
·CG 调用流图	第50-52页
·异构系统故障传播与CG 调用流图	第52-53页
·异构系统故障传播行为	第53-58页
·CG 间故障传播	第54-55页
·G 点内故障传播	第55-58页
·异构系统的应用级checkpoint 数据优化方法	第58-62页
·基于故障传播行为的checkpoint 数据分析	第58-60页
·Checkpoint 的位置选择	第60-62页
·实验评估	第62-67页
·实验方法	第62-63页
·实验结果	第63-67页
·本章小结	第67-68页
第四章异构系统应用级checkpoint 的优化设置研究	第68-92页
·问题背景	第68-71页
·异构系统程序特征分析	第68-70页
·问题提出	第70-71页
·全局checkpoint 数据保存开销最小化问题	第71-86页
·场景一：基于同步机制的checkpoint 优化设置	第71-78页
·场景二：基于异步机制的checkpoint 优化设置	第78-84页
·Checkpoint 数据保存偏移量设置优化问题	第84-86页
·实验评估	第86-89页
·实验方法	第86-87页
·实验结果	第87-89页
·本章小结	第89-92页
第五章面向GPU 的多副本容错技术	第92-114页
·基于冗余线程的GPU 多副本容错技术的基本思想	第92-95页
·问题背景	第92-93页
·解决方案	第93-95页
·RB-TMR 的设计和实现方法	第95-103页
·创建冗余代理	第96-97页
·基于RB-TMR 机制的GPU Kernel 的设计	第97-100页
·比较与投票	第100-103页
·RB-TMR 编译工具的设计与实现	第103-107页
·RB-TMR 的编译实现框架	第103-104页
·前端分析器	第104页
·数据流分析器	第104-106页
·代码重写器	第106-107页
·性能评估	第107-112页
·实验方法	第107-108页
·实验结果	第108-112页
·本章小结	第112-114页
第六章结论与展望	第114-116页
·工作总结	第114-115页
·研究展望	第115-116页
致谢	第116-118页
参考文献	第118-130页
作者在学期间取得的学术成果	第130-132页
作者在学期间参加的科研项目	第132页