| 目录 | 第1-8页 |
| 表目录 | 第8-9页 |
| 图目录 | 第9-12页 |
| 摘要 | 第12-15页 |
| ABSTRACT | 第15-19页 |
| 第一章 绪论 | 第19-41页 |
| ·研究背景 | 第19-25页 |
| ·高性能计算机发展的趋势 | 第20-22页 |
| ·高性能计算机面临的可靠性问题 | 第22-25页 |
| ·基本概念与相关工作 | 第25-35页 |
| ·容错的基本概念 | 第25-29页 |
| ·故障传播行为相关研究 | 第29-31页 |
| ·SIHFT 相关研究 | 第31-35页 |
| ·研究内容 | 第35-36页 |
| ·硬件故障在程序中的传播行为分析 | 第35-36页 |
| ·基于故障传播分析的容错优化方法 | 第36页 |
| ·主要创新 | 第36-38页 |
| ·论文组织 | 第38-41页 |
| Part I基础篇 | 第41-101页 |
| 第二章 硬件故障在串行程序中的传播行为分析 | 第43-69页 |
| ·故障传播行为概述 | 第43-46页 |
| ·故障模型 | 第43-44页 |
| ·基本定义 | 第44-46页 |
| ·数据流生错误传播行为 | 第46-55页 |
| ·详细控制流图 | 第46-47页 |
| ·数据流生错误传播方程 | 第47-49页 |
| ·数据流生错误求解算法 | 第49-50页 |
| ·过程调用的数据流生错误传播 | 第50-55页 |
| ·控制流生错误传播行为 | 第55-61页 |
| ·控制流生扩展的相关概念 | 第55-58页 |
| ·串行程序综合错误传播方程 | 第58-59页 |
| ·控制流生扩展的相关算法 | 第59-61页 |
| ·数组元素错误传播行为 | 第61-66页 |
| ·数组元素错误的表示与计算 | 第63-64页 |
| ·循环中数组元素的错误传播行为 | 第64-66页 |
| ·本章小结 | 第66-69页 |
| 第三章 硬件故障在同构并行程序中的传播行为分析 | 第69-85页 |
| ·MPI 程序中数据流生错误 | 第69-71页 |
| ·MPI 程序简介 | 第69-71页 |
| ·进程内错误和进程间错误 | 第71页 |
| ·粗粒度 MPI 扩展数据流生错误传播行为 | 第71-75页 |
| ·MPI 扩展详细控制流图 | 第71-73页 |
| ·粗粒度 MPI 扩展错误传播方程 | 第73-75页 |
| ·粗粒度 MPI 扩展错误求解算法 | 第75页 |
| ·细粒度 MPI 扩展数据流生错误传播行为 | 第75-82页 |
| ·细粒度 MPI 扩展的相关表示 | 第75-78页 |
| ·细粒度 MPI 扩展错误传播方程 | 第78-80页 |
| ·细粒度 MPI 扩展错误求解相关算法 | 第80-82页 |
| ·本章小结 | 第82-85页 |
| 第四章 硬件故障在异构并行程序中的传播行为分析 | 第85-101页 |
| ·GPGPU 程序中数据流生错误 | 第85-87页 |
| ·GPGPU 程序简介 | 第85-87页 |
| ·CPU 错误与 GPU 错误 | 第87页 |
| ·GPGPU 扩展数据流生错传播行为 | 第87-94页 |
| ·错误的不确定性 | 第88-89页 |
| ·GPGPU 扩展程序详细控制流图 | 第89-90页 |
| ·GPGPU 扩展数据流生错误传播方程 | 第90-93页 |
| ·GPGPU 扩展错误求解算法 | 第93-94页 |
| ·数组元素错误在 GPU 相关语句中的传播行为 | 第94-99页 |
| ·Kernel 函数的特点 | 第95-96页 |
| ·基于数据流方程的分析方法 | 第96-98页 |
| ·基于错误位数组的分析方法 | 第98-99页 |
| ·本章小结 | 第99-101页 |
| Part II应用篇 | 第101-163页 |
| 第五章 面向 MPI 程序的弱阻塞协同式应用级检查点方法——WBC-ALC | 第103-121页 |
| ·问题的提出 | 第103-106页 |
| ·Checkpointing 分类 | 第103-104页 |
| ·Checkpointing 相关概念 | 第104-105页 |
| ·MPI 程序中 ALC 的难点 | 第105-106页 |
| ·WBC-ALC 容错方法 | 第106-111页 |
| ·BC-ALC 容错方法 | 第106-108页 |
| ·WBC-ALC 容错思想 | 第108-109页 |
| ·WBC-ALC 协同机制 | 第109-111页 |
| ·WBC-ALC 设计与实现 | 第111-115页 |
| ·WBC-ALC 编程方法 | 第111-112页 |
| ·WBC-ALC 容错框架 | 第112-113页 |
| ·WBC-ALC 实现 | 第113-115页 |
| ·实验验证 | 第115-119页 |
| ·实验方法 | 第115-116页 |
| ·实验结果 | 第116-119页 |
| ·本章小结 | 第119-121页 |
| 第六章 面向 GPGPU 程序的懒惰检错方法——LazyFT | 第121-141页 |
| ·问题的提出 | 第121-123页 |
| ·故障模型 | 第121-122页 |
| ·Eager 容错方法的不足 | 第122-123页 |
| ·LazyFT 错误检测方法 | 第123-131页 |
| ·懒惰的检错方法 | 第123-124页 |
| ·LazyFT 的容错框架 | 第124-127页 |
| ·容错目标程序段的选择 | 第127-131页 |
| ·LazyFT 的优化 | 第131-136页 |
| ·LazyFT 执行时间模型 | 第132-133页 |
| ·面向顺序段的最优优化 | 第133-135页 |
| ·面向循环段的最优优化 | 第135-136页 |
| ·实验验证 | 第136-139页 |
| ·实验方法 | 第136-137页 |
| ·实验结果 | 第137-139页 |
| ·本章小结 | 第139-141页 |
| 第七章 面向 GPGPU 程序的部分复算方法——PartialRC | 第141-163页 |
| ·问题的提出 | 第141-143页 |
| ·现有 GPGPU 故障恢复方法 | 第141-142页 |
| ·PartialRC:部分复算 | 第142-143页 |
| ·FullRC 与 PartialRC 的容错代价 | 第143页 |
| ·PartialRC 容错模型 | 第143-148页 |
| ·PartialRC 编程模型 | 第144-146页 |
| ·PartialRC 容错框架 | 第146-148页 |
| ·PartialRC 关键技术 | 第148-155页 |
| ·PartialRC 工作流程 | 第148-154页 |
| ·PartialRC 编译实现 | 第154页 |
| ·PartialRC 正确性 | 第154-155页 |
| ·基于块传输的读写优化 | 第155页 |
| ·实验验证 | 第155-162页 |
| ·实验方法 | 第156-158页 |
| ·实验结果 | 第158-162页 |
| ·本章小结 | 第162-163页 |
| 第八章 结束语 | 第163-167页 |
| ·论文工作总结 | 第163-165页 |
| ·课题研究展望 | 第165-167页 |
| 致谢 | 第167-169页 |
| 参考文献 | 第169-183页 |
| 作者在学期间取得的学术成果 | 第183-184页 |