面向集群结构的计算机故障管理系统的研究与实现
【摘要】:科学技术的不断进步使人们对高性能计算需求范围的不断扩大,集群计算机系统以其较高的性能价格比和良好的可扩展性已快速成为高性能计算机领域的主流。但随着集群系统不断追求更高计算峰值的同时,系统的规模也在不断的扩大,系统异常和故障可能发生的概率也随之上升,依靠现有管理方式和技术手段已无法对整个系统进行有效的管理和维护工作,在此背景下研究针对面集群计算系统的故障管理技术,提高集群系统的可用性与可靠性,为用户提供稳定计算环境就显得尤为重要。本文研究了集群系统的构成和特点,对现有集群管理系统的不足进行了分析,在故障管理相关技术的基础上提出了一种层次化的集群系统故障管理架构方案,并对系统所涉及的一些关键技术进行了研究,论文的主要工作和创新点如下:(1)根据集群系统的结构特点提出了一种具有自相似特性的层次化故障管理系统架构,能适应不同规模集群系统故障管理功能实现的需要,达到了较好的可扩展性。(2)为满足系统模块间交互的需要,设计了一套可扩展的信息表示文法,规范化的命名了系统内的硬件资源,标示了系统故障事件间的关联关系,能够对检测到的故障信息进行细粒度的语义描述,支持高效率的自动解析。(3)研究实现了系统的故障快速发现技术,通过对操作系统报错分支的插桩实现低开销的故障实时检测。完成了对CPU、内存、PCIE总线、磁盘等设备故障检测功能,以及故障上报和汇总的原型实现,为后续进行故障诊断、影响域分析和故障处理的功能实现奠定了前期基础。
【关键词】:集群 故障管理 系统架构 信息表示文法 故障检测
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.52