首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

基于检查点的作业自动容错技术研究与实现

摘要第1-11页
ABSTRACT第11-12页
第一章 绪论第12-19页
   ·课题背景及意义第12-14页
   ·研究现状第14-16页
     ·现有的高性能计算资源管理系统第14-15页
     ·基于资源管理系统实现容错技术第15-16页
   ·主要工作和创新第16-17页
   ·论文结构第17-19页
第二章 高性能计算系统中容错关键技术研究第19-28页
   ·故障检测技术研究第19-20页
   ·面向恢复的计算技术研究第20-22页
     ·ROC 技术概述第20-21页
     ·UNDO 模型技术第21-22页
   ·检查点技术研究第22-25页
     ·检查点文件信息第22-23页
     ·检查点应用的类型第23-24页
     ·高性能计算系统中的检查点应用第24-25页
     ·现有的检查点库技术第25页
   ·并行应用同步机制研究第25-27页
     ·并行应用检查点协议第25-26页
     ·并行应用同步开销第26-27页
   ·本章小结第27-28页
第三章 基于资源管理系统的作业自动容错框架第28-38页
   ·SLURM 体系结构研究与分析第28-33页
     ·体系结构第28-30页
     ·SLURM 中作业执行过程第30-32页
     ·SLURM 中现有容错功能研究第32-33页
   ·基于SLURM 的作业自动容错框架第33-37页
     ·作业自动容错框架特点与流程第33-35页
     ·体系结构第35-36页
     ·自动故障检测模块第36-37页
     ·作业的自动CHECKPOINT/RESTART 机制第37页
   ·本章小结第37-38页
第四章 基于节点组件的故障检测模型第38-46页
   ·基于组件的故障检测机制研究第38-39页
   ·基于节点组件的故障检测模型第39-42页
     ·基于学习的动态组件划分算法第39-41页
     ·基于节点组件的递归重启方法第41-42页
   ·基于节点组件的故障检测模型应用第42-44页
     ·节点资源请求记录第42-43页
     ·作业失效检测模块第43页
     ·数据分析模块第43-44页
   ·基于节点组件的故障检测模型评价第44-45页
   ·本章小结第45-46页
第五章 并行作业的自动CHECKPOINT/RESTART 机制第46-62页
   ·基于作业的检查点机制第46-47页
   ·并行作业同步机制研究与设计第47-48页
   ·作业检查点文件管理机制研究与设计第48-51页
     ·并行检查点文件管理第49页
     ·两级检查点文件存储第49-51页
   ·并行作业的自动CHECKPOINT/RESTART 体系结构第51-56页
     ·用户端设计第52-53页
     ·CR 消息管理模块设计第53-55页
     ·BLCR 库第55-56页
   ·并行作业CHECKPOINT/RESTART 流程第56-60页
     ·并行作业CHECKPOINT/RESTART 整体流程第56-57页
     ·并行作业的周期性检查点自动设置流程第57-58页
     ·并行作业的自动检查点恢复流程第58-60页
   ·CHECKPOINT/RESTART 过程控制策略第60-61页
   ·本章小结第61-62页
第六章 基于检查点的作业自动容错系统实现及测试第62-75页
   ·系统实现第62-69页
     ·相关数据结构第62-65页
     ·检查点功能API第65-67页
     ·作业的自动CHECKPOINT/RESTART 机制实现第67-69页
   ·系统功能测试与分析第69-71页
     ·测试环境第69页
     ·测试结果与分析第69-71页
   ·系统性能测试与分析第71-75页
     ·测试环境第71页
     ·检查点文件存储开销第71-72页
     ·CHECKPOINT/RESTART 时间开销第72-75页
第七章 结束语第75-77页
   ·工作总结第75页
   ·下一步的工作第75-77页
致谢第77-78页
参考文献第78-81页
作者在学期间取得的学术成果第81页

论文共81页,点击 下载论文
上一篇:视频图像序列中运动目标检测与跟踪
下一篇:基于微内核的中间件自适应机制研究与实现