首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--其他计算机论文

大规模高性能计算系统主动容错优化方法研究

摘要第5-8页
Abstract第8-10页
缩略语第16-17页
1 绪论第17-37页
    1.1 研究背景第17-19页
        1.1.1 HPC系统面临的可靠性问题第17-18页
        1.1.2 传统容错方法面临的挑战第18页
        1.1.3 主动容错机制为优化HPC系统的容错开销提供了新的思路第18-19页
        1.1.4 研究主动容错开销优化方法的意义第19页
    1.2 主动容错简介第19-21页
        1.2.1 主动容错的基本概念第19-20页
        1.2.2 常用PA简介第20页
        1.2.3 容错开销的评价指标第20-21页
    1.3 相关研究第21-28页
        1.3.1 容错方法相关研究第21-27页
        1.3.2 日志文件预处理和故障预测相关研究第27-28页
    1.4 研究内容第28-32页
        1.4.1 基于PTF的主动容错方法第28-29页
        1.4.2 面向POF失真的非协同CR方法第29-30页
        1.4.3 统一的主动时间冗余容错方法第30-31页
        1.4.4 日志预处理过滤准确率的优化方法第31-32页
    1.5 主要贡献和创新点第32-35页
        1.5.1 基于PTF的主动容错方法PTFPF第32-33页
        1.5.2 面向POF失真的非协同CR方法PUCRD第33页
        1.5.3 统一的主动时间冗余容错方法UTPF第33-34页
        1.5.4 基于稀疏表示的日志预处理方法第34-35页
    1.6 论文结构第35-37页
2 研究基础与相关假设第37-47页
    2.1 相关定义第37-39页
        2.1.1 大规模HPC系统第37页
        2.1.2 容错技术和容错方法第37页
        2.1.3 容错机制第37-38页
        2.1.4 主动故障处理方法第38页
        2.1.5 主动容错的运算周期和工作模式第38-39页
        2.1.6 回卷距离第39页
        2.1.7 主动处理窗口第39页
        2.1.8 系统故障和基本处理单元第39页
        2.1.9 基本处理单元第39页
    2.2 基本知识第39-44页
        2.2.1 常用容错方法简介第39-43页
        2.2.2 故障预测及其关键技术简介第43-44页
    2.3 相关假设与限制条件第44页
    2.4 本文所用符号说明第44-47页
3 基于预测故障类型的主动容错方法第47-101页
    3.1 研究背景及简介第47-48页
    3.2 PTFPF的基本设计第48-53页
        3.2.1 PTFPF的基本构架第48页
        3.2.2 PTFPF的后备容错方法第48-49页
        3.2.3 常用PA对不同预测事件的应对策略第49-52页
        3.2.4 PTFPF的迁移策略第52页
        3.2.5 理想条件下的PA选择策略第52-53页
        3.2.6 PTFPF对不同预测事件的应对策略第53页
    3.3 PTFPF的性能模型第53-61页
        3.3.1 容错方法性能模型的基本概念第53-56页
        3.3.2 预测引擎的抽象描述方法第56-57页
        3.3.3 PTFPF的基础性能模型第57-59页
        3.3.4 PTFPF的预测结果接受策略与性能模型的改进第59-61页
    3.4 面向PTF失误的PA选择策略第61-64页
        3.4.1 开销平衡的PA选择策略OBPASS第61-62页
        3.4.2 基于OBPASS策略的性能模型第62-64页
    3.5 面向主动容错的两级检查点存储方法第64-66页
        3.5.1 两级MLPC的基本设计第64-65页
        3.5.2 收益感知的两级主动检查点存储策略GTPCS第65-66页
    3.6 面向最晚迁移策略的预拷贝动态迁移方法第66-73页
        3.6.1 预拷贝动态迁移方法第66-67页
        3.6.2 面向容错的PrLMIG方法第67-69页
        3.6.3 基于主动处理窗口的PrLMIG停机迁移触发条件第69-70页
        3.6.4 双步长内存页脏率预测方法第70-73页
    3.7 仿真实验方法概述第73-78页
        3.7.1 故障路径第74-75页
        3.7.2 离散事件产生器第75-76页
        3.7.3 基于F-trace和离散事件产生器的仿真方法第76-77页
        3.7.4 仿真参数设置第77-78页
    3.8 系统仿真与实验结果第78-98页
        3.8.1 PTFPF的仿真实验设计第78-79页
        3.8.2 预测结果接受策略BPPAS的有效性分析第79-80页
        3.8.3 PA选择策略OBPASS的优化效果评估第80页
        3.8.4 PTFPF与PCCR的开销对比及分析第80-86页
        3.8.5 PTFPF与TMIG的开销对比及分析第86-87页
        3.8.6 预测引擎对PTFPF性能的影响第87-89页
        3.8.7 GTPCS的有效性评估第89-95页
        3.8.8 面向最晚迁移策略的PrLMIG的有效性评估第95-98页
    3.9 本章小结第98-101页
4 面向预测时间失真的主动非协同CR方法第101-121页
    4.1 研究背景及简介第101-102页
    4.2 预测POF失真情况下PUCR的多米诺效应问题第102-104页
    4.3 主动消息记录方法PML第104-105页
        4.3.1 极小集消息记录法MSL第104-105页
        4.3.2 PML对故障误报的应对方法第105页
    4.4 PUCRD的性能模型第105-108页
        4.4.1 PUCRD的基础性能模型第105-107页
        4.4.2 PUCRD的预测结果接受策略第107页
        4.4.3 改进后的性能模型第107-108页
    4.5 PML的消息存储优化策略SPPML第108-110页
        4.5.1 发送端存储PML的容错开销第108-109页
        4.5.2 接收端存储PML的容错开销第109页
        4.5.3 PML的消息存储策略SPPML第109-110页
    4.6 系统仿真与实验结果第110-120页
        4.6.1 仿真实验设计第110-112页
        4.6.2 PML的有效性分析第112-113页
        4.6.3 SPPML的有效性分析第113-115页
        4.6.4 PUCRD的容错开销评估第115-118页
        4.6.5 预测引擎参数对PUCRD性能的影响第118-120页
    4.7 本章小结第120-121页
5 统一的主动时间冗余容错方法第121-151页
    5.1 研究背景及简介第121页
    5.2 统一主动时间冗余容错方法的性能模型第121-126页
        5.2.1 主动分层CR方法第122-123页
        5.2.2 统一性能模型UMTPA的基本形式第123-124页
        5.2.3 UTPF的预测结果接受策略第124-125页
        5.2.4 改进后的性能模型第125-126页
    5.3 UTPF的运算周期优化方法第126-127页
    5.4 UTPF的分组策略第127-129页
        5.4.1 PML的消息记录因子与分组数量的关系第127-128页
        5.4.2 面向PML的UTPF最少分组策略MGSUP第128-129页
    5.5 系统仿真与实验结果第129-150页
        5.5.1 仿真实验设计第129-131页
        5.5.2 UPOTP的有效性分析第131-133页
        5.5.3 UTPF的容错开销与UMTPA的有效性分析第133-142页
        5.5.4 UTPF的优化效果分析第142-144页
        5.5.5 MGSUP的有效性分析第144-145页
        5.5.6 预测引擎参数优化策略第145-150页
    5.6 本章小结第150-151页
6 基于稀疏表示的日志预处理方法第151-167页
    6.1 研究背景及简介第151-152页
    6.2 事件向量构建方法第152-153页
    6.3 无效记录过滤第153-159页
        6.3.1 SRC概述第153-155页
        6.3.2 基于时间片和相关性表的稀疏表示分类方法SRTC第155-159页
    6.4 事件的分类第159页
    6.5 基于稀疏表示的日志预处理方法SRCP第159-160页
    6.6 系统仿真和实验结果第160-165页
        6.6.1 实验方法概述第160-162页
        6.6.2 SRCP的预处理开销分析第162页
        6.6.3 SRCP的预处理效果分析第162-164页
        6.6.4 不同预处理方法对预测引擎参数的影响第164-165页
    6.7 本章小结第165-167页
7 结论与展望第167-171页
    7.1 论文工作总结第167-168页
    7.2 未来工作展望第168-171页
参考文献第171-185页
致谢第185-187页
攻读博士学位期间的学术成果第187-188页

论文共188页,点击 下载论文
上一篇:宽幅铝合金厚板角轧变形行为研究
下一篇:Ti-Mo低碳低合金钢的组织超细化及析出机理研究