星载流水并行任务的故障恢复技术研究
【摘要】:随着空间应用越来越复杂,在轨处理的数据量越来越大,甚至呈现指数级增长的趋势,当单个处理单元的计算平台已经远远不能满足大规模星载应用的计算需求时,星载多处理机平台可望为大规模星载应用程序的高性能计算提供必要的硬件平台。当然,为了更加有效地利用多处理单元的硬件并行平台提高星载应用的计算性能,需要将以前的串行星载应用程序用并行的编程方法重新实现,从而在软件手段上配合并行的硬件平台提高星载应用程序的计算性能。而流水并行处理作为并行处理的一种有效方式被广泛应用在包括航天在内的诸多领域,例如天地传输中的无线传输领域和星载多媒体图像处理应用等方面,可见实践已经证明流水并行处理已经在星载计算机的诸多方面得到有效的应用并极有效地提高了星载应用的计算性能。同时,众所周知,来自宇宙空间深处和太阳活动产生的宇宙射线使得外空间环境变为一个充斥大量辐射的复杂环境。这些宇宙射线中带有大量的带电粒子比如电子、质子、a粒子和重离子,当这些带电粒子轰击航天器材的时候可能会导致单粒子效应,从而导致星载应用在计算过程中出现计算结果错误等各种故障。所以对星载流水并行应用来说,在其满足了星载应用高性能计算的同时对程序本身的可靠性提出了新的需求。容错技术是提高星载应用可靠性的主要和有效手段。容错技术可以分为硬件容错和软件容错,而软件容错具有性价比高等诸多优势,相比硬件容错而言得到了更广泛应用。在软件容错中,又包括故障检测和故障恢复两大部分,可以说故障恢复是保证星载流水并行任务的重要手段。目前星载应用的故障恢复策略主要就是重启发生故障的计算任务甚至是重启整个系统,显然使用这样的手段来对星载流水并行的应用进行故障恢复会导致故障恢复之后大量的重复计算从而极大地降低了星载应用的计算性能。为了克服上述的缺陷,使得故障恢复机制也能更加适合星载流水并行任务,本文针对星载流水并行任务进行研究,提出了一种细粒度的故障恢复机制,在故障恢复的过程中减少故障恢复后星载流水并行任务的重复计算,在保证星载流水并行任务可靠性的前提下提高了故障恢复的效率,使得因故障恢复带来的星载流水应用的计算性能消耗尽可能地减小。本文在VxWorks嵌入式系统中,模拟了共享内存和分布式内存的并行环境,然后以流水并行JPEG图像压缩程序为实例,对本文提出的故障恢复机制进行了有效性验证,并对故障恢复效率进行了性能评测,确保了恢复有效性的前提下,提高了故障恢复的效率。
【关键词】:流水并行任务 可靠性 细粒度故障恢复 JPEG图像压缩
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:V467