| 摘要 | 第1-13页 |
| ABSTRACT | 第13-15页 |
| 第一章 绪论 | 第15-39页 |
| ·课题背景 | 第15-20页 |
| ·高性能计算的普及应用 | 第15-16页 |
| ·高性能计算面临的可靠性挑战 | 第16-20页 |
| ·相关研究工作 | 第20-31页 |
| ·容错的基本概念和常用方法 | 第20-23页 |
| ·Rollback-recovery 容错技术分析 | 第23-29页 |
| ·优化checkpoint 开销的相关研究 | 第29-31页 |
| ·相关工作小结 | 第31页 |
| ·课题研究内容 | 第31-35页 |
| ·课题来源 | 第31页 |
| ·课题研究重点 | 第31-34页 |
| ·课题研究难点 | 第34-35页 |
| ·本文的主要工作和创新 | 第35-36页 |
| ·Checkpointing 技术的几个术语 | 第36-37页 |
| ·论文结构 | 第37-39页 |
| 第二章 MPI 并行程序活跃变量分析方法——LAMP | 第39-53页 |
| ·MPI 并行程序分析 | 第39-43页 |
| ·并行编程模型 | 第39-40页 |
| ·并行程序的实现方式 | 第40页 |
| ·MPI 程序设计与执行的特点 | 第40-43页 |
| ·MPI 程序的应用级checkpoint 数据 | 第43-48页 |
| ·一个MPI 程序实例 | 第44-46页 |
| ·并行程序活跃变量的定义 | 第46-48页 |
| ·LAMP | 第48-52页 |
| ·分析块与MPI 程序流图 | 第48-49页 |
| ·LAMP 分析方法 | 第49-51页 |
| ·LAMP 方法举例 | 第51-52页 |
| ·本章小节 | 第52-53页 |
| 第三章 基于LAMP 的应用级checkpointing 技术 | 第53-71页 |
| ·求解指定checkpoint 位置各进程上的活跃变量集合的算法 | 第53-57页 |
| ·初始分析 | 第54-55页 |
| ·更新 | 第55-56页 |
| ·Checkpoint 数据量最小化问题 | 第56页 |
| ·增量式checkpointing | 第56-57页 |
| ·选择合适的checkpoint 位置 | 第57-60页 |
| ·一般算法 | 第57-59页 |
| ·简化算法 | 第59-60页 |
| ·应用级checkpoint 的保存和恢复 | 第60-66页 |
| ·保存和恢复应用程序的执行位置 | 第60-62页 |
| ·保存和恢复应用状态 | 第62-64页 |
| ·处理MPI 库状态 | 第64-65页 |
| ·应用状态保存和恢复方法的特点 | 第65-66页 |
| ·实验评估 | 第66-69页 |
| ·实验方法 | 第66-67页 |
| ·实验结果 | 第67-69页 |
| ·本章小结 | 第69-71页 |
| 第四章 应用级checkpoint 数据的一致性问题研究 | 第71-87页 |
| ·问题背景 | 第71-74页 |
| ·一致性问题的几个基本概念 | 第71-72页 |
| ·现有解决方法分析 | 第72-74页 |
| ·小结 | 第74页 |
| ·安全的checkpointing 区 | 第74-78页 |
| ·强一致性的概念 | 第74-76页 |
| ·安全的checkpointing 区 | 第76-78页 |
| ·识别安全的checkpointing 区 | 第78-82页 |
| ·MPI 程序特征分析 | 第79-81页 |
| ·识别通信线/区 | 第81-82页 |
| ·实验评估 | 第82-85页 |
| ·实验设置 | 第82-84页 |
| ·实验结果 | 第84-85页 |
| ·本章小结 | 第85-87页 |
| 第五章 多checkpoint 的优化设置 | 第87-101页 |
| ·问题背景 | 第87页 |
| ·数学模型及求解 | 第87-98页 |
| ·问题一:程序中已有N 个checkpoint 指令 | 第87-91页 |
| ·问题二:程序中没有checkpoint 指令 | 第91-98页 |
| ·实验评估 | 第98-100页 |
| ·实验设置 | 第98-99页 |
| ·实验结果 | 第99-100页 |
| ·本章小结 | 第100-101页 |
| 第六章 ALEC 系统的设计与实现 | 第101-111页 |
| ·ALEC 的结构和实现 | 第101-109页 |
| ·词法分析 | 第102-104页 |
| ·分块并创建流图 | 第104页 |
| ·识别安全的checkpointing 区 | 第104-105页 |
| ·活跃变量分析 | 第105-106页 |
| ·Checkpoints 选择 | 第106-107页 |
| ·插入保存与恢复代码 | 第107-109页 |
| ·ALC-Tool 的设计方案 | 第109-110页 |
| ·本章小结 | 第110-111页 |
| 第七章 结束语 | 第111-113页 |
| ·工作总结 | 第111-112页 |
| ·研究展望 | 第112-113页 |
| 致谢 | 第113-115页 |
| 参考文献 | 第115-127页 |
| 攻读博士学位期间已发表和待发表的论文 | 第127-129页 |
| 攻读博士学位期间参与的科研项目 | 第129页 |