硬件故障在程序中的传播行为分析及容错技术研究

目录	第1-8页
表目录	第8-9页
图目录	第9-12页
摘要	第12-15页
ABSTRACT	第15-19页
第一章绪论	第19-41页
·研究背景	第19-25页
·高性能计算机发展的趋势	第20-22页
·高性能计算机面临的可靠性问题	第22-25页
·基本概念与相关工作	第25-35页
·容错的基本概念	第25-29页
·故障传播行为相关研究	第29-31页
·SIHFT 相关研究	第31-35页
·研究内容	第35-36页
·硬件故障在程序中的传播行为分析	第35-36页
·基于故障传播分析的容错优化方法	第36页
·主要创新	第36-38页
·论文组织	第38-41页
Part I基础篇	第41-101页
第二章硬件故障在串行程序中的传播行为分析	第43-69页
·故障传播行为概述	第43-46页
·故障模型	第43-44页
·基本定义	第44-46页
·数据流生错误传播行为	第46-55页
·详细控制流图	第46-47页
·数据流生错误传播方程	第47-49页
·数据流生错误求解算法	第49-50页
·过程调用的数据流生错误传播	第50-55页
·控制流生错误传播行为	第55-61页
·控制流生扩展的相关概念	第55-58页
·串行程序综合错误传播方程	第58-59页
·控制流生扩展的相关算法	第59-61页
·数组元素错误传播行为	第61-66页
·数组元素错误的表示与计算	第63-64页
·循环中数组元素的错误传播行为	第64-66页
·本章小结	第66-69页
第三章硬件故障在同构并行程序中的传播行为分析	第69-85页
·MPI 程序中数据流生错误	第69-71页
·MPI 程序简介	第69-71页
·进程内错误和进程间错误	第71页
·粗粒度 MPI 扩展数据流生错误传播行为	第71-75页
·MPI 扩展详细控制流图	第71-73页
·粗粒度 MPI 扩展错误传播方程	第73-75页
·粗粒度 MPI 扩展错误求解算法	第75页
·细粒度 MPI 扩展数据流生错误传播行为	第75-82页
·细粒度 MPI 扩展的相关表示	第75-78页
·细粒度 MPI 扩展错误传播方程	第78-80页
·细粒度 MPI 扩展错误求解相关算法	第80-82页
·本章小结	第82-85页
第四章硬件故障在异构并行程序中的传播行为分析	第85-101页
·GPGPU 程序中数据流生错误	第85-87页
·GPGPU 程序简介	第85-87页
·CPU 错误与 GPU 错误	第87页
·GPGPU 扩展数据流生错传播行为	第87-94页
·错误的不确定性	第88-89页
·GPGPU 扩展程序详细控制流图	第89-90页
·GPGPU 扩展数据流生错误传播方程	第90-93页
·GPGPU 扩展错误求解算法	第93-94页
·数组元素错误在 GPU 相关语句中的传播行为	第94-99页
·Kernel 函数的特点	第95-96页
·基于数据流方程的分析方法	第96-98页
·基于错误位数组的分析方法	第98-99页
·本章小结	第99-101页
Part II应用篇	第101-163页
第五章面向 MPI 程序的弱阻塞协同式应用级检查点方法——WBC-ALC	第103-121页
·问题的提出	第103-106页
·Checkpointing 分类	第103-104页
·Checkpointing 相关概念	第104-105页
·MPI 程序中 ALC 的难点	第105-106页
·WBC-ALC 容错方法	第106-111页
·BC-ALC 容错方法	第106-108页
·WBC-ALC 容错思想	第108-109页
·WBC-ALC 协同机制	第109-111页
·WBC-ALC 设计与实现	第111-115页
·WBC-ALC 编程方法	第111-112页
·WBC-ALC 容错框架	第112-113页
·WBC-ALC 实现	第113-115页
·实验验证	第115-119页
·实验方法	第115-116页
·实验结果	第116-119页
·本章小结	第119-121页
第六章面向 GPGPU 程序的懒惰检错方法——LazyFT	第121-141页
·问题的提出	第121-123页
·故障模型	第121-122页
·Eager 容错方法的不足	第122-123页
·LazyFT 错误检测方法	第123-131页
·懒惰的检错方法	第123-124页
·LazyFT 的容错框架	第124-127页
·容错目标程序段的选择	第127-131页
·LazyFT 的优化	第131-136页
·LazyFT 执行时间模型	第132-133页
·面向顺序段的最优优化	第133-135页
·面向循环段的最优优化	第135-136页
·实验验证	第136-139页
·实验方法	第136-137页
·实验结果	第137-139页
·本章小结	第139-141页
第七章面向 GPGPU 程序的部分复算方法——PartialRC	第141-163页
·问题的提出	第141-143页
·现有 GPGPU 故障恢复方法	第141-142页
·PartialRC：部分复算	第142-143页
·FullRC 与 PartialRC 的容错代价	第143页
·PartialRC 容错模型	第143-148页
·PartialRC 编程模型	第144-146页
·PartialRC 容错框架	第146-148页
·PartialRC 关键技术	第148-155页
·PartialRC 工作流程	第148-154页
·PartialRC 编译实现	第154页
·PartialRC 正确性	第154-155页
·基于块传输的读写优化	第155页
·实验验证	第155-162页
·实验方法	第156-158页
·实验结果	第158-162页
·本章小结	第162-163页
第八章结束语	第163-167页
·论文工作总结	第163-165页
·课题研究展望	第165-167页
致谢	第167-169页
参考文献	第169-183页
作者在学期间取得的学术成果	第183-184页