首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--其他计算机论文

面向超级计算机的故障预测和容错关键技术研究

摘要第10-13页
ABSTRACT第13-15页
第一章 绪论第16-43页
    1.1 课题背景第16-23页
        1.1.1 超级计算机发展现状第16-18页
        1.1.2 面临的可靠性问题第18-23页
    1.2 容错研究基础第23-29页
        1.2.1 容错基本概念第23-24页
        1.2.2 超级计算机系统组成第24-27页
        1.2.3 故障类型第27-29页
        1.2.4 并行系统故障模型第29页
    1.3 研究综述第29-37页
        1.3.1 空间冗余容错技术分析第29-31页
        1.3.2 时间冗余容错技术分析第31-35页
        1.3.3 混合冗余容错技术分析第35-37页
    1.4 本文工作第37-40页
    1.5 本文组织结构第40-43页
第二章 面向故障预测的数据采集技术第43-64页
    2.1 引言第43页
    2.2 面向故障预测数据采集方法分析第43-45页
        2.2.1 研究目标第43-44页
        2.2.2 相关研究第44-45页
    2.3 分布式数据采集方法DDC第45-59页
        2.3.1 DDC总体设计第45-47页
        2.3.2 硬件环境状态数据采集第47-51页
        2.3.3 系统运行状态数据采集第51-58页
        2.3.4 结点故障事件数据采集第58-59页
    2.4 性能测试与分析第59-63页
        2.4.1 硬件环境状态数据采集开销分析第59页
        2.4.2 系统运行状态数据采集开销分析第59-60页
        2.4.3 自适应分组数据汇集开销分析第60-62页
        2.4.4 环形数据汇集开销分析第62-63页
    2.5 小结第63-64页
第三章 基于属性选择和集成数据流挖掘的在线故障预测技术第64-92页
    3.1 引言第64-66页
    3.2 超级计算机故障预测研究基础第66-68页
        3.2.1 超级计算机故障分析第66-67页
        3.2.2 故障预测相关指标第67-68页
    3.3 基于属性选择和在线集成数据流挖掘的故障预测方法FSoE第68-85页
        3.3.1 FSoE总体设计第68-70页
        3.3.2 数据属性选择第70-77页
        3.3.3 基于SVM的集成数据流挖掘故障预测方法第77-85页
    3.4 实验验证第85-90页
        3.4.1 实验设置第85-86页
        3.4.2 数据属性选择有效性验证第86页
        3.4.3 集成算法精度比较第86-88页
        3.4.4 集成算法训练时间和预测时间比较第88-89页
        3.4.5 结点预测精度比较第89-90页
    3.5 小结第90-92页
第四章 主动容错和被动容错相结合的容错技术第92-115页
    4.1 引言第92-93页
    4.2 基于进程复制和预取的容错框架FTRP第93-104页
        4.2.1 FTRP总体设计第93-96页
        4.2.2 WM开销模型第96-99页
        4.2.3 进程复制和预取容错机制PRP2第99-104页
    4.3 实验验证第104-113页
        4.3.1 应用运行效率比较第106-108页
        4.3.2 故障预测准确率对效率的影响第108-109页
        4.3.3 PRP2开销对效率的影响第109-110页
        4.3.4 步长变化对效率的影响第110-111页
        4.3.5 应用不同运行规模时效率变化第111-113页
    4.4 相关研究第113-114页
    4.5 小结第114-115页
第五章 Checkpointing容错技术可扩展性分析第115-138页
    5.1 引言第115页
    5.2 Checkpointing存储开销模型第115-127页
        5.2.1 Checkpointing存储开销分析第115-116页
        5.2.2 存储受限加速比模型和存储墙模型第116-120页
        5.2.3 系统分类第120-121页
        5.2.4 系统结构分析第121-127页
    5.3 Checkpointing技术可扩展性实验分析第127-136页
        5.3.1 模型有效性验证实验第127-130页
        5.3.2 Checkpointing技术可扩展性实验第130-136页
        5.3.3 讨论第136页
    5.4 相关研究第136-137页
    5.5 小结第137-138页
第六章 总结与展望第138-141页
    6.1 工作总结第138-139页
    6.2 研究展望第139-141页
致谢第141-142页
参考文献第142-160页
作者在学期间取得的学术成果第160-162页
附录A 存储受限加速比推导第162页

论文共162页,点击 下载论文
上一篇:基于新型存储介质的软硬件优化关键技术研究
下一篇:基于线性规划松弛的概率图模型MAP推理方法研究