大规模高性能计算系统主动容错优化方法研究

摘要	第5-8页
Abstract	第8-10页
缩略语	第16-17页
1 绪论	第17-37页
1.1 研究背景	第17-19页
1.1.1 HPC系统面临的可靠性问题	第17-18页
1.1.2 传统容错方法面临的挑战	第18页
1.1.3 主动容错机制为优化HPC系统的容错开销提供了新的思路	第18-19页
1.1.4 研究主动容错开销优化方法的意义	第19页
1.2 主动容错简介	第19-21页
1.2.1 主动容错的基本概念	第19-20页
1.2.2 常用PA简介	第20页
1.2.3 容错开销的评价指标	第20-21页
1.3 相关研究	第21-28页
1.3.1 容错方法相关研究	第21-27页
1.3.2 日志文件预处理和故障预测相关研究	第27-28页
1.4 研究内容	第28-32页
1.4.1 基于PTF的主动容错方法	第28-29页
1.4.2 面向POF失真的非协同CR方法	第29-30页
1.4.3 统一的主动时间冗余容错方法	第30-31页
1.4.4 日志预处理过滤准确率的优化方法	第31-32页
1.5 主要贡献和创新点	第32-35页
1.5.1 基于PTF的主动容错方法PTFPF	第32-33页
1.5.2 面向POF失真的非协同CR方法PUCRD	第33页
1.5.3 统一的主动时间冗余容错方法UTPF	第33-34页
1.5.4 基于稀疏表示的日志预处理方法	第34-35页
1.6 论文结构	第35-37页
2 研究基础与相关假设	第37-47页
2.1 相关定义	第37-39页
2.1.1 大规模HPC系统	第37页
2.1.2 容错技术和容错方法	第37页
2.1.3 容错机制	第37-38页
2.1.4 主动故障处理方法	第38页
2.1.5 主动容错的运算周期和工作模式	第38-39页
2.1.6 回卷距离	第39页
2.1.7 主动处理窗口	第39页
2.1.8 系统故障和基本处理单元	第39页
2.1.9 基本处理单元	第39页
2.2 基本知识	第39-44页
2.2.1 常用容错方法简介	第39-43页
2.2.2 故障预测及其关键技术简介	第43-44页
2.3 相关假设与限制条件	第44页
2.4 本文所用符号说明	第44-47页
3 基于预测故障类型的主动容错方法	第47-101页
3.1 研究背景及简介	第47-48页
3.2 PTFPF的基本设计	第48-53页
3.2.1 PTFPF的基本构架	第48页
3.2.2 PTFPF的后备容错方法	第48-49页
3.2.3 常用PA对不同预测事件的应对策略	第49-52页
3.2.4 PTFPF的迁移策略	第52页
3.2.5 理想条件下的PA选择策略	第52-53页
3.2.6 PTFPF对不同预测事件的应对策略	第53页
3.3 PTFPF的性能模型	第53-61页
3.3.1 容错方法性能模型的基本概念	第53-56页
3.3.2 预测引擎的抽象描述方法	第56-57页
3.3.3 PTFPF的基础性能模型	第57-59页
3.3.4 PTFPF的预测结果接受策略与性能模型的改进	第59-61页
3.4 面向PTF失误的PA选择策略	第61-64页
3.4.1 开销平衡的PA选择策略OBPASS	第61-62页
3.4.2 基于OBPASS策略的性能模型	第62-64页
3.5 面向主动容错的两级检查点存储方法	第64-66页
3.5.1 两级MLPC的基本设计	第64-65页
3.5.2 收益感知的两级主动检查点存储策略GTPCS	第65-66页
3.6 面向最晚迁移策略的预拷贝动态迁移方法	第66-73页
3.6.1 预拷贝动态迁移方法	第66-67页
3.6.2 面向容错的PrLMIG方法	第67-69页
3.6.3 基于主动处理窗口的PrLMIG停机迁移触发条件	第69-70页
3.6.4 双步长内存页脏率预测方法	第70-73页
3.7 仿真实验方法概述	第73-78页
3.7.1 故障路径	第74-75页
3.7.2 离散事件产生器	第75-76页
3.7.3 基于F-trace和离散事件产生器的仿真方法	第76-77页
3.7.4 仿真参数设置	第77-78页
3.8 系统仿真与实验结果	第78-98页
3.8.1 PTFPF的仿真实验设计	第78-79页
3.8.2 预测结果接受策略BPPAS的有效性分析	第79-80页
3.8.3 PA选择策略OBPASS的优化效果评估	第80页
3.8.4 PTFPF与PCCR的开销对比及分析	第80-86页
3.8.5 PTFPF与TMIG的开销对比及分析	第86-87页
3.8.6 预测引擎对PTFPF性能的影响	第87-89页
3.8.7 GTPCS的有效性评估	第89-95页
3.8.8 面向最晚迁移策略的PrLMIG的有效性评估	第95-98页
3.9 本章小结	第98-101页
4 面向预测时间失真的主动非协同CR方法	第101-121页
4.1 研究背景及简介	第101-102页
4.2 预测POF失真情况下PUCR的多米诺效应问题	第102-104页
4.3 主动消息记录方法PML	第104-105页
4.3.1 极小集消息记录法MSL	第104-105页
4.3.2 PML对故障误报的应对方法	第105页
4.4 PUCRD的性能模型	第105-108页
4.4.1 PUCRD的基础性能模型	第105-107页
4.4.2 PUCRD的预测结果接受策略	第107页
4.4.3 改进后的性能模型	第107-108页
4.5 PML的消息存储优化策略SPPML	第108-110页
4.5.1 发送端存储PML的容错开销	第108-109页
4.5.2 接收端存储PML的容错开销	第109页
4.5.3 PML的消息存储策略SPPML	第109-110页
4.6 系统仿真与实验结果	第110-120页
4.6.1 仿真实验设计	第110-112页
4.6.2 PML的有效性分析	第112-113页
4.6.3 SPPML的有效性分析	第113-115页
4.6.4 PUCRD的容错开销评估	第115-118页
4.6.5 预测引擎参数对PUCRD性能的影响	第118-120页
4.7 本章小结	第120-121页
5 统一的主动时间冗余容错方法	第121-151页
5.1 研究背景及简介	第121页
5.2 统一主动时间冗余容错方法的性能模型	第121-126页
5.2.1 主动分层CR方法	第122-123页
5.2.2 统一性能模型UMTPA的基本形式	第123-124页
5.2.3 UTPF的预测结果接受策略	第124-125页
5.2.4 改进后的性能模型	第125-126页
5.3 UTPF的运算周期优化方法	第126-127页
5.4 UTPF的分组策略	第127-129页
5.4.1 PML的消息记录因子与分组数量的关系	第127-128页
5.4.2 面向PML的UTPF最少分组策略MGSUP	第128-129页
5.5 系统仿真与实验结果	第129-150页
5.5.1 仿真实验设计	第129-131页
5.5.2 UPOTP的有效性分析	第131-133页
5.5.3 UTPF的容错开销与UMTPA的有效性分析	第133-142页
5.5.4 UTPF的优化效果分析	第142-144页
5.5.5 MGSUP的有效性分析	第144-145页
5.5.6 预测引擎参数优化策略	第145-150页
5.6 本章小结	第150-151页
6 基于稀疏表示的日志预处理方法	第151-167页
6.1 研究背景及简介	第151-152页
6.2 事件向量构建方法	第152-153页
6.3 无效记录过滤	第153-159页
6.3.1 SRC概述	第153-155页
6.3.2 基于时间片和相关性表的稀疏表示分类方法SRTC	第155-159页
6.4 事件的分类	第159页
6.5 基于稀疏表示的日志预处理方法SRCP	第159-160页
6.6 系统仿真和实验结果	第160-165页
6.6.1 实验方法概述	第160-162页
6.6.2 SRCP的预处理开销分析	第162页
6.6.3 SRCP的预处理效果分析	第162-164页
6.6.4 不同预处理方法对预测引擎参数的影响	第164-165页
6.7 本章小结	第165-167页
7 结论与展望	第167-171页
7.1 论文工作总结	第167-168页
7.2 未来工作展望	第168-171页
参考文献	第171-185页
致谢	第185-187页
攻读博士学位期间的学术成果	第187-188页