摘要 | 第10-13页 |
ABSTRACT | 第13-15页 |
第一章 绪论 | 第16-43页 |
1.1 课题背景 | 第16-23页 |
1.1.1 超级计算机发展现状 | 第16-18页 |
1.1.2 面临的可靠性问题 | 第18-23页 |
1.2 容错研究基础 | 第23-29页 |
1.2.1 容错基本概念 | 第23-24页 |
1.2.2 超级计算机系统组成 | 第24-27页 |
1.2.3 故障类型 | 第27-29页 |
1.2.4 并行系统故障模型 | 第29页 |
1.3 研究综述 | 第29-37页 |
1.3.1 空间冗余容错技术分析 | 第29-31页 |
1.3.2 时间冗余容错技术分析 | 第31-35页 |
1.3.3 混合冗余容错技术分析 | 第35-37页 |
1.4 本文工作 | 第37-40页 |
1.5 本文组织结构 | 第40-43页 |
第二章 面向故障预测的数据采集技术 | 第43-64页 |
2.1 引言 | 第43页 |
2.2 面向故障预测数据采集方法分析 | 第43-45页 |
2.2.1 研究目标 | 第43-44页 |
2.2.2 相关研究 | 第44-45页 |
2.3 分布式数据采集方法DDC | 第45-59页 |
2.3.1 DDC总体设计 | 第45-47页 |
2.3.2 硬件环境状态数据采集 | 第47-51页 |
2.3.3 系统运行状态数据采集 | 第51-58页 |
2.3.4 结点故障事件数据采集 | 第58-59页 |
2.4 性能测试与分析 | 第59-63页 |
2.4.1 硬件环境状态数据采集开销分析 | 第59页 |
2.4.2 系统运行状态数据采集开销分析 | 第59-60页 |
2.4.3 自适应分组数据汇集开销分析 | 第60-62页 |
2.4.4 环形数据汇集开销分析 | 第62-63页 |
2.5 小结 | 第63-64页 |
第三章 基于属性选择和集成数据流挖掘的在线故障预测技术 | 第64-92页 |
3.1 引言 | 第64-66页 |
3.2 超级计算机故障预测研究基础 | 第66-68页 |
3.2.1 超级计算机故障分析 | 第66-67页 |
3.2.2 故障预测相关指标 | 第67-68页 |
3.3 基于属性选择和在线集成数据流挖掘的故障预测方法FSoE | 第68-85页 |
3.3.1 FSoE总体设计 | 第68-70页 |
3.3.2 数据属性选择 | 第70-77页 |
3.3.3 基于SVM的集成数据流挖掘故障预测方法 | 第77-85页 |
3.4 实验验证 | 第85-90页 |
3.4.1 实验设置 | 第85-86页 |
3.4.2 数据属性选择有效性验证 | 第86页 |
3.4.3 集成算法精度比较 | 第86-88页 |
3.4.4 集成算法训练时间和预测时间比较 | 第88-89页 |
3.4.5 结点预测精度比较 | 第89-90页 |
3.5 小结 | 第90-92页 |
第四章 主动容错和被动容错相结合的容错技术 | 第92-115页 |
4.1 引言 | 第92-93页 |
4.2 基于进程复制和预取的容错框架FTRP | 第93-104页 |
4.2.1 FTRP总体设计 | 第93-96页 |
4.2.2 WM开销模型 | 第96-99页 |
4.2.3 进程复制和预取容错机制PRP2 | 第99-104页 |
4.3 实验验证 | 第104-113页 |
4.3.1 应用运行效率比较 | 第106-108页 |
4.3.2 故障预测准确率对效率的影响 | 第108-109页 |
4.3.3 PRP2开销对效率的影响 | 第109-110页 |
4.3.4 步长变化对效率的影响 | 第110-111页 |
4.3.5 应用不同运行规模时效率变化 | 第111-113页 |
4.4 相关研究 | 第113-114页 |
4.5 小结 | 第114-115页 |
第五章 Checkpointing容错技术可扩展性分析 | 第115-138页 |
5.1 引言 | 第115页 |
5.2 Checkpointing存储开销模型 | 第115-127页 |
5.2.1 Checkpointing存储开销分析 | 第115-116页 |
5.2.2 存储受限加速比模型和存储墙模型 | 第116-120页 |
5.2.3 系统分类 | 第120-121页 |
5.2.4 系统结构分析 | 第121-127页 |
5.3 Checkpointing技术可扩展性实验分析 | 第127-136页 |
5.3.1 模型有效性验证实验 | 第127-130页 |
5.3.2 Checkpointing技术可扩展性实验 | 第130-136页 |
5.3.3 讨论 | 第136页 |
5.4 相关研究 | 第136-137页 |
5.5 小结 | 第137-138页 |
第六章 总结与展望 | 第138-141页 |
6.1 工作总结 | 第138-139页 |
6.2 研究展望 | 第139-141页 |
致谢 | 第141-142页 |
参考文献 | 第142-160页 |
作者在学期间取得的学术成果 | 第160-162页 |
附录A 存储受限加速比推导 | 第162页 |