摘要 | 第5-8页 |
Abstract | 第8-10页 |
缩略语 | 第16-17页 |
1 绪论 | 第17-37页 |
1.1 研究背景 | 第17-19页 |
1.1.1 HPC系统面临的可靠性问题 | 第17-18页 |
1.1.2 传统容错方法面临的挑战 | 第18页 |
1.1.3 主动容错机制为优化HPC系统的容错开销提供了新的思路 | 第18-19页 |
1.1.4 研究主动容错开销优化方法的意义 | 第19页 |
1.2 主动容错简介 | 第19-21页 |
1.2.1 主动容错的基本概念 | 第19-20页 |
1.2.2 常用PA简介 | 第20页 |
1.2.3 容错开销的评价指标 | 第20-21页 |
1.3 相关研究 | 第21-28页 |
1.3.1 容错方法相关研究 | 第21-27页 |
1.3.2 日志文件预处理和故障预测相关研究 | 第27-28页 |
1.4 研究内容 | 第28-32页 |
1.4.1 基于PTF的主动容错方法 | 第28-29页 |
1.4.2 面向POF失真的非协同CR方法 | 第29-30页 |
1.4.3 统一的主动时间冗余容错方法 | 第30-31页 |
1.4.4 日志预处理过滤准确率的优化方法 | 第31-32页 |
1.5 主要贡献和创新点 | 第32-35页 |
1.5.1 基于PTF的主动容错方法PTFPF | 第32-33页 |
1.5.2 面向POF失真的非协同CR方法PUCRD | 第33页 |
1.5.3 统一的主动时间冗余容错方法UTPF | 第33-34页 |
1.5.4 基于稀疏表示的日志预处理方法 | 第34-35页 |
1.6 论文结构 | 第35-37页 |
2 研究基础与相关假设 | 第37-47页 |
2.1 相关定义 | 第37-39页 |
2.1.1 大规模HPC系统 | 第37页 |
2.1.2 容错技术和容错方法 | 第37页 |
2.1.3 容错机制 | 第37-38页 |
2.1.4 主动故障处理方法 | 第38页 |
2.1.5 主动容错的运算周期和工作模式 | 第38-39页 |
2.1.6 回卷距离 | 第39页 |
2.1.7 主动处理窗口 | 第39页 |
2.1.8 系统故障和基本处理单元 | 第39页 |
2.1.9 基本处理单元 | 第39页 |
2.2 基本知识 | 第39-44页 |
2.2.1 常用容错方法简介 | 第39-43页 |
2.2.2 故障预测及其关键技术简介 | 第43-44页 |
2.3 相关假设与限制条件 | 第44页 |
2.4 本文所用符号说明 | 第44-47页 |
3 基于预测故障类型的主动容错方法 | 第47-101页 |
3.1 研究背景及简介 | 第47-48页 |
3.2 PTFPF的基本设计 | 第48-53页 |
3.2.1 PTFPF的基本构架 | 第48页 |
3.2.2 PTFPF的后备容错方法 | 第48-49页 |
3.2.3 常用PA对不同预测事件的应对策略 | 第49-52页 |
3.2.4 PTFPF的迁移策略 | 第52页 |
3.2.5 理想条件下的PA选择策略 | 第52-53页 |
3.2.6 PTFPF对不同预测事件的应对策略 | 第53页 |
3.3 PTFPF的性能模型 | 第53-61页 |
3.3.1 容错方法性能模型的基本概念 | 第53-56页 |
3.3.2 预测引擎的抽象描述方法 | 第56-57页 |
3.3.3 PTFPF的基础性能模型 | 第57-59页 |
3.3.4 PTFPF的预测结果接受策略与性能模型的改进 | 第59-61页 |
3.4 面向PTF失误的PA选择策略 | 第61-64页 |
3.4.1 开销平衡的PA选择策略OBPASS | 第61-62页 |
3.4.2 基于OBPASS策略的性能模型 | 第62-64页 |
3.5 面向主动容错的两级检查点存储方法 | 第64-66页 |
3.5.1 两级MLPC的基本设计 | 第64-65页 |
3.5.2 收益感知的两级主动检查点存储策略GTPCS | 第65-66页 |
3.6 面向最晚迁移策略的预拷贝动态迁移方法 | 第66-73页 |
3.6.1 预拷贝动态迁移方法 | 第66-67页 |
3.6.2 面向容错的PrLMIG方法 | 第67-69页 |
3.6.3 基于主动处理窗口的PrLMIG停机迁移触发条件 | 第69-70页 |
3.6.4 双步长内存页脏率预测方法 | 第70-73页 |
3.7 仿真实验方法概述 | 第73-78页 |
3.7.1 故障路径 | 第74-75页 |
3.7.2 离散事件产生器 | 第75-76页 |
3.7.3 基于F-trace和离散事件产生器的仿真方法 | 第76-77页 |
3.7.4 仿真参数设置 | 第77-78页 |
3.8 系统仿真与实验结果 | 第78-98页 |
3.8.1 PTFPF的仿真实验设计 | 第78-79页 |
3.8.2 预测结果接受策略BPPAS的有效性分析 | 第79-80页 |
3.8.3 PA选择策略OBPASS的优化效果评估 | 第80页 |
3.8.4 PTFPF与PCCR的开销对比及分析 | 第80-86页 |
3.8.5 PTFPF与TMIG的开销对比及分析 | 第86-87页 |
3.8.6 预测引擎对PTFPF性能的影响 | 第87-89页 |
3.8.7 GTPCS的有效性评估 | 第89-95页 |
3.8.8 面向最晚迁移策略的PrLMIG的有效性评估 | 第95-98页 |
3.9 本章小结 | 第98-101页 |
4 面向预测时间失真的主动非协同CR方法 | 第101-121页 |
4.1 研究背景及简介 | 第101-102页 |
4.2 预测POF失真情况下PUCR的多米诺效应问题 | 第102-104页 |
4.3 主动消息记录方法PML | 第104-105页 |
4.3.1 极小集消息记录法MSL | 第104-105页 |
4.3.2 PML对故障误报的应对方法 | 第105页 |
4.4 PUCRD的性能模型 | 第105-108页 |
4.4.1 PUCRD的基础性能模型 | 第105-107页 |
4.4.2 PUCRD的预测结果接受策略 | 第107页 |
4.4.3 改进后的性能模型 | 第107-108页 |
4.5 PML的消息存储优化策略SPPML | 第108-110页 |
4.5.1 发送端存储PML的容错开销 | 第108-109页 |
4.5.2 接收端存储PML的容错开销 | 第109页 |
4.5.3 PML的消息存储策略SPPML | 第109-110页 |
4.6 系统仿真与实验结果 | 第110-120页 |
4.6.1 仿真实验设计 | 第110-112页 |
4.6.2 PML的有效性分析 | 第112-113页 |
4.6.3 SPPML的有效性分析 | 第113-115页 |
4.6.4 PUCRD的容错开销评估 | 第115-118页 |
4.6.5 预测引擎参数对PUCRD性能的影响 | 第118-120页 |
4.7 本章小结 | 第120-121页 |
5 统一的主动时间冗余容错方法 | 第121-151页 |
5.1 研究背景及简介 | 第121页 |
5.2 统一主动时间冗余容错方法的性能模型 | 第121-126页 |
5.2.1 主动分层CR方法 | 第122-123页 |
5.2.2 统一性能模型UMTPA的基本形式 | 第123-124页 |
5.2.3 UTPF的预测结果接受策略 | 第124-125页 |
5.2.4 改进后的性能模型 | 第125-126页 |
5.3 UTPF的运算周期优化方法 | 第126-127页 |
5.4 UTPF的分组策略 | 第127-129页 |
5.4.1 PML的消息记录因子与分组数量的关系 | 第127-128页 |
5.4.2 面向PML的UTPF最少分组策略MGSUP | 第128-129页 |
5.5 系统仿真与实验结果 | 第129-150页 |
5.5.1 仿真实验设计 | 第129-131页 |
5.5.2 UPOTP的有效性分析 | 第131-133页 |
5.5.3 UTPF的容错开销与UMTPA的有效性分析 | 第133-142页 |
5.5.4 UTPF的优化效果分析 | 第142-144页 |
5.5.5 MGSUP的有效性分析 | 第144-145页 |
5.5.6 预测引擎参数优化策略 | 第145-150页 |
5.6 本章小结 | 第150-151页 |
6 基于稀疏表示的日志预处理方法 | 第151-167页 |
6.1 研究背景及简介 | 第151-152页 |
6.2 事件向量构建方法 | 第152-153页 |
6.3 无效记录过滤 | 第153-159页 |
6.3.1 SRC概述 | 第153-155页 |
6.3.2 基于时间片和相关性表的稀疏表示分类方法SRTC | 第155-159页 |
6.4 事件的分类 | 第159页 |
6.5 基于稀疏表示的日志预处理方法SRCP | 第159-160页 |
6.6 系统仿真和实验结果 | 第160-165页 |
6.6.1 实验方法概述 | 第160-162页 |
6.6.2 SRCP的预处理开销分析 | 第162页 |
6.6.3 SRCP的预处理效果分析 | 第162-164页 |
6.6.4 不同预处理方法对预测引擎参数的影响 | 第164-165页 |
6.7 本章小结 | 第165-167页 |
7 结论与展望 | 第167-171页 |
7.1 论文工作总结 | 第167-168页 |
7.2 未来工作展望 | 第168-171页 |
参考文献 | 第171-185页 |
致谢 | 第185-187页 |
攻读博士学位期间的学术成果 | 第187-188页 |