CC-NUMA计算机结点内部硬件含错处理研究
目录 | 第1-7页 |
图表目录 | 第7-8页 |
摘要 | 第8-9页 |
ABSTRACT | 第9-10页 |
第一章 绪论 | 第10-14页 |
§1.1 前言 | 第10-11页 |
§1.2 课题研究现状 | 第11-12页 |
§1.3 课题研究内容与成果 | 第12页 |
§1.4 文章结构 | 第12-14页 |
第二章 CC-NUMA体系结构及含错系统研究 | 第14-24页 |
§2.1 CC-NUMA体系结构 | 第14-15页 |
§2.2 结点内部结构 | 第15-17页 |
·处理器接口PI | 第16页 |
·存储器/目录接口MI | 第16-17页 |
·网络接口NI | 第17页 |
§2.3 RAS系统 | 第17-19页 |
§2.4 含错系统研究 | 第19-23页 |
·容错和含错 | 第19-20页 |
·含错技术的应用 | 第20-22页 |
·含错设计在CC-NUMA超级计算机中应用的优势 | 第22-23页 |
§2.5 小结 | 第23-24页 |
第三章 CC-NUMA体系结构含错设计分析 | 第24-41页 |
§3.1 含错模型比较 | 第24-25页 |
§3.2 故障模型 | 第25-26页 |
·抽象故障类型 | 第25-26页 |
·故障概貌 | 第26页 |
§3.3 含错区域模型 | 第26-27页 |
§3.4 故障对系统的直接影响 | 第27-31页 |
·P型故障的直接影响 | 第28-29页 |
·M型故障的直接影响 | 第29页 |
·R型故障的直接影响 | 第29-30页 |
·故障限制 | 第30-31页 |
§3.5 故障对Cache一致性协议的影响 | 第31-38页 |
·读请求 | 第33-35页 |
·处理器写请求 | 第35-36页 |
·处理回写和替换 | 第36-37页 |
·对共享主存的影响 | 第37-38页 |
·故障限制 | 第38页 |
§3.6 故障对操作系统的影响 | 第38-40页 |
§3.7 小结 | 第40-41页 |
第四章 恢复算法设计 | 第41-50页 |
§4.1 恢复算法简介 | 第41-42页 |
§4.2 故障检测 | 第42-44页 |
·主存操作超时 | 第42-43页 |
·NACK计数溢出 | 第43页 |
·收到截断的包 | 第43页 |
·RAS系统检测故障 | 第43-44页 |
§4.3 恢复算法初始化 | 第44页 |
·故障定位并确定完好视图 | 第44页 |
§4.4 互连恢复 | 第44-46页 |
·清空故障点缓存 | 第45页 |
·排空互连通路 | 第45-46页 |
·互连恢复确认 | 第46页 |
§4.5 Cache一致性恢复 | 第46-48页 |
·P型故障恢复 | 第47页 |
·M型故障恢复 | 第47-48页 |
·R型故障恢复 | 第48页 |
·重置Cache一致性协议 | 第48页 |
§4.6 系统恢复 | 第48-49页 |
§4.7 小结 | 第49-50页 |
第五章 设计实现与验证 | 第50-57页 |
§5.1 实验环境 | 第50-52页 |
·实验环境简介 | 第50页 |
·系统平台的配置 | 第50-51页 |
·SimOS环境配置 | 第51-52页 |
§5.2 实现方案 | 第52-54页 |
·故障注入 | 第52-53页 |
·RAS系统及Hub部分功能实现 | 第53页 |
·恢复算法实现 | 第53-54页 |
§5.3 验证结果 | 第54-56页 |
·正确性验证 | 第55页 |
·效率分析 | 第55-56页 |
§5.4 小结 | 第56-57页 |
第六章 结束语 | 第57-59页 |
§6.1 全文工作总结 | 第57页 |
§6.2 相关讨论 | 第57页 |
§6.3 下一步工作展望 | 第57-59页 |
致谢 | 第59-60页 |
攻读硕士学位期间发表的论文 | 第60-61页 |
参考文献 | 第61-63页 |