首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--电子数字计算机(不连续作用电子计算机)论文--各种电子数字计算机论文

超级计算机故障分析、建模与预测技术研究

摘要第10-12页
Abstract第12-14页
第一章 绪论第23-30页
    1.1 研究背景第23-25页
    1.2 研究目的及意义第25页
    1.3 研究内容及贡献第25-27页
        1.3.1 可扩展故障监控、采集与分析框架构建第25-26页
        1.3.2 基于序列模式挖掘的内存故障特征分析第26页
        1.3.3 基于统计规律与协同分析的故障特征识别第26页
        1.3.4 面向超级计算机的多维失效时间模型构建及应用第26页
        1.3.5 数据驱动的自适应容错模型及应用第26-27页
        1.3.6 基于带时间标签多序列模式挖掘的故障预测第27页
    1.4 论文的组织结构第27-28页
    1.5 相关定义与术语第28-30页
第二章 超级计算机故障分析、建模与预测技术研究现状第30-49页
    2.1 超级计算机发展现状概述第30-32页
    2.2 故障分析、建模与预测现状分析第32-47页
        2.2.1 典型超级计算机故障分析方法第33-36页
        2.2.2 部件级故障分析方法第36-39页
        2.2.3 故障预测技术分析第39-47页
    2.3 现有技术总结第47-48页
    2.4 本章小结第48-49页
第三章 可扩展故障监控、采集与分析框架构建第49-65页
    3.1 神威系列超级计算机第49-53页
        3.1.1 神威系列超级计算机系统结构第49-51页
        3.1.2 通用分布式故障采集框架第51-53页
    3.2 基于事件触发的状态监控与采集模型第53-55页
        3.2.1 模型原理第53-54页
        3.2.2 实验分析第54-55页
    3.3 传感点设置与故障数据处理第55-60页
        3.3.1 传感点设置方法第55-56页
        3.3.2 故障分类方法第56-57页
        3.3.3 系统信息库的构建技术第57-59页
        3.3.4 故障预处理方法第59-60页
    3.4 基于统计数据的故障分析框架第60-64页
        3.4.1 故障分析框架第60-61页
        3.4.2 框架的基础应用第61-64页
    3.5 本章小结第64-65页
第四章 基于序列模式挖掘的内存故障特征分析第65-77页
    4.1 基于序列模型的内存单错与内存多错关联分析第65-71页
        4.1.1 分析原理与方法第65-67页
        4.1.2 模式挖掘与关联分析第67-70页
        4.1.3 结论第70-71页
    4.2 基于序列模型的内存失效关联分析第71-75页
        4.2.1 分析原理与方法第71-72页
        4.2.2 模式挖掘与关联分析第72-75页
        4.2.3 结论第75页
    4.3 本章小结第75-77页
第五章 基于统计规律与协同分析的故障特征识别第77-95页
    5.1 基于统计规律的内存单错特征分析第77-83页
        5.1.1 原理与方法第77-80页
        5.1.2 DRAM单错特征分析第80-83页
        5.1.3 结论第83页
    5.2 基于协同分析的故障特征识别第83-94页
        5.2.1 协同分析方法第83-84页
        5.2.2 应用故障采集第84-85页
        5.2.3 应用与内存故障协同分析第85-89页
        5.2.4 应用与CPU故障协同分析第89-94页
    5.3 本章小结第94-95页
第六章 面向超级计算机的多维失效时间模型构建及应用第95-118页
    6.1 内存失效时间分析与建模第95-101页
        6.1.1 分析方法第95-96页
        6.1.2 参数估计第96页
        6.1.3 内存失效时间分析第96-100页
        6.1.4 讨论第100-101页
    6.2 多维度失效时间模型构建第101-107页
        6.2.1 失效间隔时间分析第101-106页
        6.2.2 多维统一的失效时间模型第106-107页
    6.3 基于故障建模的系统可靠性评估第107-111页
        6.3.1 经典可靠性评估方法第108页
        6.3.2 基于故障建模的可靠性评估方法第108-109页
        6.3.3 可靠性评估及对比分析第109-111页
    6.4 基于失效间隔时间的失效预测模型第111-117页
        6.4.1 移动观测窗口(采样数量)的选择第113-114页
        6.4.2 基于前置时间约束的失效预测模型第114-115页
        6.4.3 基于前置时间和预测窗口约束的失效预测模型第115-117页
    6.5 本章小结第117-118页
第七章 数据驱动的自适应容错模型及应用第118-131页
    7.1 面向复杂故障的多层失效模型第118-121页
        7.1.1 细粒度失效分布模型第118-119页
        7.1.2 应用级失效模型第119-121页
    7.2 数据驱动的自适应容错第121-125页
        7.2.1 检查点模型及优化第121-123页
        7.2.2 动态自适应的检查点优化第123-125页
    7.3 分析与实验第125-129页
        7.3.1 实验环境第125-126页
        7.3.2 检查点间隔优化分析第126-129页
    7.4 本章小结第129-131页
第八章 基于带时间标签多序列模式挖掘的故障预测第131-145页
    8.1 算法基本思想第131-133页
    8.2 算法描述第133-139页
        8.2.1 规则生成算法(algorithm1’)第133-134页
        8.2.2 频繁场景生成算法(algorithm2’)第134-135页
        8.2.3 场景计数改进算法(algorithm5’)第135-139页
    8.3 神威系列超级计算机故障预测分析第139-144页
        8.3.1 基于weka的预测工具设计与实现第139页
        8.3.2 数据采集及处理第139-140页
        8.3.3 故障归约第140-141页
        8.3.4 实验与分析第141-144页
    8.4 本章小结第144-145页
第九章 总结与展望第145-147页
    9.1 工作总结第145-146页
    9.2 工作展望第146-147页
致谢第147-148页
参考文献第148-154页
附录第154-166页
作者简历第166页

论文共166页,点击 下载论文
上一篇:广域量子密钥网络模型及路由技术研究
下一篇:虚拟化环境安全感知技术研究