摘要 | 第10-12页 |
Abstract | 第12-14页 |
第一章 绪论 | 第23-30页 |
1.1 研究背景 | 第23-25页 |
1.2 研究目的及意义 | 第25页 |
1.3 研究内容及贡献 | 第25-27页 |
1.3.1 可扩展故障监控、采集与分析框架构建 | 第25-26页 |
1.3.2 基于序列模式挖掘的内存故障特征分析 | 第26页 |
1.3.3 基于统计规律与协同分析的故障特征识别 | 第26页 |
1.3.4 面向超级计算机的多维失效时间模型构建及应用 | 第26页 |
1.3.5 数据驱动的自适应容错模型及应用 | 第26-27页 |
1.3.6 基于带时间标签多序列模式挖掘的故障预测 | 第27页 |
1.4 论文的组织结构 | 第27-28页 |
1.5 相关定义与术语 | 第28-30页 |
第二章 超级计算机故障分析、建模与预测技术研究现状 | 第30-49页 |
2.1 超级计算机发展现状概述 | 第30-32页 |
2.2 故障分析、建模与预测现状分析 | 第32-47页 |
2.2.1 典型超级计算机故障分析方法 | 第33-36页 |
2.2.2 部件级故障分析方法 | 第36-39页 |
2.2.3 故障预测技术分析 | 第39-47页 |
2.3 现有技术总结 | 第47-48页 |
2.4 本章小结 | 第48-49页 |
第三章 可扩展故障监控、采集与分析框架构建 | 第49-65页 |
3.1 神威系列超级计算机 | 第49-53页 |
3.1.1 神威系列超级计算机系统结构 | 第49-51页 |
3.1.2 通用分布式故障采集框架 | 第51-53页 |
3.2 基于事件触发的状态监控与采集模型 | 第53-55页 |
3.2.1 模型原理 | 第53-54页 |
3.2.2 实验分析 | 第54-55页 |
3.3 传感点设置与故障数据处理 | 第55-60页 |
3.3.1 传感点设置方法 | 第55-56页 |
3.3.2 故障分类方法 | 第56-57页 |
3.3.3 系统信息库的构建技术 | 第57-59页 |
3.3.4 故障预处理方法 | 第59-60页 |
3.4 基于统计数据的故障分析框架 | 第60-64页 |
3.4.1 故障分析框架 | 第60-61页 |
3.4.2 框架的基础应用 | 第61-64页 |
3.5 本章小结 | 第64-65页 |
第四章 基于序列模式挖掘的内存故障特征分析 | 第65-77页 |
4.1 基于序列模型的内存单错与内存多错关联分析 | 第65-71页 |
4.1.1 分析原理与方法 | 第65-67页 |
4.1.2 模式挖掘与关联分析 | 第67-70页 |
4.1.3 结论 | 第70-71页 |
4.2 基于序列模型的内存失效关联分析 | 第71-75页 |
4.2.1 分析原理与方法 | 第71-72页 |
4.2.2 模式挖掘与关联分析 | 第72-75页 |
4.2.3 结论 | 第75页 |
4.3 本章小结 | 第75-77页 |
第五章 基于统计规律与协同分析的故障特征识别 | 第77-95页 |
5.1 基于统计规律的内存单错特征分析 | 第77-83页 |
5.1.1 原理与方法 | 第77-80页 |
5.1.2 DRAM单错特征分析 | 第80-83页 |
5.1.3 结论 | 第83页 |
5.2 基于协同分析的故障特征识别 | 第83-94页 |
5.2.1 协同分析方法 | 第83-84页 |
5.2.2 应用故障采集 | 第84-85页 |
5.2.3 应用与内存故障协同分析 | 第85-89页 |
5.2.4 应用与CPU故障协同分析 | 第89-94页 |
5.3 本章小结 | 第94-95页 |
第六章 面向超级计算机的多维失效时间模型构建及应用 | 第95-118页 |
6.1 内存失效时间分析与建模 | 第95-101页 |
6.1.1 分析方法 | 第95-96页 |
6.1.2 参数估计 | 第96页 |
6.1.3 内存失效时间分析 | 第96-100页 |
6.1.4 讨论 | 第100-101页 |
6.2 多维度失效时间模型构建 | 第101-107页 |
6.2.1 失效间隔时间分析 | 第101-106页 |
6.2.2 多维统一的失效时间模型 | 第106-107页 |
6.3 基于故障建模的系统可靠性评估 | 第107-111页 |
6.3.1 经典可靠性评估方法 | 第108页 |
6.3.2 基于故障建模的可靠性评估方法 | 第108-109页 |
6.3.3 可靠性评估及对比分析 | 第109-111页 |
6.4 基于失效间隔时间的失效预测模型 | 第111-117页 |
6.4.1 移动观测窗口(采样数量)的选择 | 第113-114页 |
6.4.2 基于前置时间约束的失效预测模型 | 第114-115页 |
6.4.3 基于前置时间和预测窗口约束的失效预测模型 | 第115-117页 |
6.5 本章小结 | 第117-118页 |
第七章 数据驱动的自适应容错模型及应用 | 第118-131页 |
7.1 面向复杂故障的多层失效模型 | 第118-121页 |
7.1.1 细粒度失效分布模型 | 第118-119页 |
7.1.2 应用级失效模型 | 第119-121页 |
7.2 数据驱动的自适应容错 | 第121-125页 |
7.2.1 检查点模型及优化 | 第121-123页 |
7.2.2 动态自适应的检查点优化 | 第123-125页 |
7.3 分析与实验 | 第125-129页 |
7.3.1 实验环境 | 第125-126页 |
7.3.2 检查点间隔优化分析 | 第126-129页 |
7.4 本章小结 | 第129-131页 |
第八章 基于带时间标签多序列模式挖掘的故障预测 | 第131-145页 |
8.1 算法基本思想 | 第131-133页 |
8.2 算法描述 | 第133-139页 |
8.2.1 规则生成算法(algorithm1’) | 第133-134页 |
8.2.2 频繁场景生成算法(algorithm2’) | 第134-135页 |
8.2.3 场景计数改进算法(algorithm5’) | 第135-139页 |
8.3 神威系列超级计算机故障预测分析 | 第139-144页 |
8.3.1 基于weka的预测工具设计与实现 | 第139页 |
8.3.2 数据采集及处理 | 第139-140页 |
8.3.3 故障归约 | 第140-141页 |
8.3.4 实验与分析 | 第141-144页 |
8.4 本章小结 | 第144-145页 |
第九章 总结与展望 | 第145-147页 |
9.1 工作总结 | 第145-146页 |
9.2 工作展望 | 第146-147页 |
致谢 | 第147-148页 |
参考文献 | 第148-154页 |
附录 | 第154-166页 |
作者简历 | 第166页 |