首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--一般性问题论文--设计与性能分析论文--容错技术论文

硬件故障在程序中的传播行为分析及容错技术研究

目录第1-8页
表目录第8-9页
图目录第9-12页
摘要第12-15页
ABSTRACT第15-19页
第一章 绪论第19-41页
   ·研究背景第19-25页
     ·高性能计算机发展的趋势第20-22页
     ·高性能计算机面临的可靠性问题第22-25页
   ·基本概念与相关工作第25-35页
     ·容错的基本概念第25-29页
     ·故障传播行为相关研究第29-31页
     ·SIHFT 相关研究第31-35页
   ·研究内容第35-36页
     ·硬件故障在程序中的传播行为分析第35-36页
     ·基于故障传播分析的容错优化方法第36页
   ·主要创新第36-38页
   ·论文组织第38-41页
Part I基础篇第41-101页
 第二章 硬件故障在串行程序中的传播行为分析第43-69页
   ·故障传播行为概述第43-46页
     ·故障模型第43-44页
     ·基本定义第44-46页
   ·数据流生错误传播行为第46-55页
     ·详细控制流图第46-47页
     ·数据流生错误传播方程第47-49页
     ·数据流生错误求解算法第49-50页
     ·过程调用的数据流生错误传播第50-55页
   ·控制流生错误传播行为第55-61页
     ·控制流生扩展的相关概念第55-58页
     ·串行程序综合错误传播方程第58-59页
     ·控制流生扩展的相关算法第59-61页
   ·数组元素错误传播行为第61-66页
     ·数组元素错误的表示与计算第63-64页
     ·循环中数组元素的错误传播行为第64-66页
   ·本章小结第66-69页
 第三章 硬件故障在同构并行程序中的传播行为分析第69-85页
   ·MPI 程序中数据流生错误第69-71页
     ·MPI 程序简介第69-71页
     ·进程内错误和进程间错误第71页
   ·粗粒度 MPI 扩展数据流生错误传播行为第71-75页
     ·MPI 扩展详细控制流图第71-73页
     ·粗粒度 MPI 扩展错误传播方程第73-75页
     ·粗粒度 MPI 扩展错误求解算法第75页
   ·细粒度 MPI 扩展数据流生错误传播行为第75-82页
     ·细粒度 MPI 扩展的相关表示第75-78页
     ·细粒度 MPI 扩展错误传播方程第78-80页
     ·细粒度 MPI 扩展错误求解相关算法第80-82页
   ·本章小结第82-85页
 第四章 硬件故障在异构并行程序中的传播行为分析第85-101页
   ·GPGPU 程序中数据流生错误第85-87页
     ·GPGPU 程序简介第85-87页
     ·CPU 错误与 GPU 错误第87页
   ·GPGPU 扩展数据流生错传播行为第87-94页
     ·错误的不确定性第88-89页
     ·GPGPU 扩展程序详细控制流图第89-90页
     ·GPGPU 扩展数据流生错误传播方程第90-93页
     ·GPGPU 扩展错误求解算法第93-94页
   ·数组元素错误在 GPU 相关语句中的传播行为第94-99页
     ·Kernel 函数的特点第95-96页
     ·基于数据流方程的分析方法第96-98页
     ·基于错误位数组的分析方法第98-99页
   ·本章小结第99-101页
Part II应用篇第101-163页
 第五章 面向 MPI 程序的弱阻塞协同式应用级检查点方法——WBC-ALC第103-121页
   ·问题的提出第103-106页
     ·Checkpointing 分类第103-104页
     ·Checkpointing 相关概念第104-105页
     ·MPI 程序中 ALC 的难点第105-106页
   ·WBC-ALC 容错方法第106-111页
     ·BC-ALC 容错方法第106-108页
     ·WBC-ALC 容错思想第108-109页
     ·WBC-ALC 协同机制第109-111页
   ·WBC-ALC 设计与实现第111-115页
     ·WBC-ALC 编程方法第111-112页
     ·WBC-ALC 容错框架第112-113页
     ·WBC-ALC 实现第113-115页
   ·实验验证第115-119页
     ·实验方法第115-116页
     ·实验结果第116-119页
   ·本章小结第119-121页
 第六章 面向 GPGPU 程序的懒惰检错方法——LazyFT第121-141页
   ·问题的提出第121-123页
     ·故障模型第121-122页
     ·Eager 容错方法的不足第122-123页
   ·LazyFT 错误检测方法第123-131页
     ·懒惰的检错方法第123-124页
     ·LazyFT 的容错框架第124-127页
     ·容错目标程序段的选择第127-131页
   ·LazyFT 的优化第131-136页
     ·LazyFT 执行时间模型第132-133页
     ·面向顺序段的最优优化第133-135页
     ·面向循环段的最优优化第135-136页
   ·实验验证第136-139页
     ·实验方法第136-137页
     ·实验结果第137-139页
   ·本章小结第139-141页
 第七章 面向 GPGPU 程序的部分复算方法——PartialRC第141-163页
   ·问题的提出第141-143页
     ·现有 GPGPU 故障恢复方法第141-142页
     ·PartialRC:部分复算第142-143页
     ·FullRC 与 PartialRC 的容错代价第143页
   ·PartialRC 容错模型第143-148页
     ·PartialRC 编程模型第144-146页
     ·PartialRC 容错框架第146-148页
   ·PartialRC 关键技术第148-155页
     ·PartialRC 工作流程第148-154页
     ·PartialRC 编译实现第154页
     ·PartialRC 正确性第154-155页
     ·基于块传输的读写优化第155页
   ·实验验证第155-162页
     ·实验方法第156-158页
     ·实验结果第158-162页
   ·本章小结第162-163页
第八章 结束语第163-167页
   ·论文工作总结第163-165页
   ·课题研究展望第165-167页
致谢第167-169页
参考文献第169-183页
作者在学期间取得的学术成果第183-184页

论文共184页,点击 下载论文
上一篇:多核多处理器系统的节能实时调度技术研究
下一篇:大规模分布式存储系统中数据冗余技术研究