论文部分内容阅读
星载计算机作为星载系统最核心的部分,负责着星务管理、在轨信息处理、卫星控制等重要工作。随着空间探索任务的深入,需要提高星载系统的在轨处理能力,星载处理器也将朝着高性能、低功耗的方向发展。由于传统抗辐射芯片制造工艺复杂,性能低,功耗以及成本都很高,难以满足构建高性能、低功耗的星载计算机的要求。而商用GPU(Grapfics Processing Unit,图形处理器)具有强大的数据处理能力和较低的功耗要求,同时价格成本也较低,本文将商用GPU应用在星载系统上,可以为航天领域提供一条构建高性能、低功耗、低成本的星载计算机应用思路。然而在太空的辐射环境中星载计算机会受到大量的辐射效应影响,其中SEU(Single-Event Upsets,单粒子翻转)的影响最为严重,因此在星载系统上应用GPU最重要的是解决其可靠性问题。本文以星载GPU抗SEU技术为研究课题,在充分研究SEU产生机制与现有的容错方法的前提下,分析了SEU效应对GPU系统不同层次的影响。通过软件容错的方法来解决由SEU所引起的硬件瞬时故障,对GPU内部硬件结构、通信机制以及CUDA(Compute Unified Device Architecture,统一计算设备架构)软件计算平台的线程组织形式、指令调度方式的研究,结合GPGPU(General Purpose GPU,通用计算图形处理器)的体系结构特点与TMR(Triple Modular Redundancy,三模冗余)结构提出基于TMR-CUDA的容错架构,根据CUDA不同的线程组织方式,对容软错误方案进行多级优化工作。针对基准程序的实验分析,实现基于计算资源的容错方案开销降低为60%左右,利用线程束冗余容错的性能开销降低为26%左右。最后根据本文设计的方案建立软件的可靠性模型以及通过故障注入实验来评估容错方案的可靠性。本课题旨在分析GPU在星载系统上的应用前景,为提升星载系统的在轨计算能力提供新思路,本文通过对星载GPU容错方案的研究,来提高星载系统的可靠性,并且通过故障注入实验对容错方案进行验证。充分发挥GPU高性能、低功耗、低成本的优势,为GPU在星载系统上应用的进一步研究提供了基础,本文对于星载GPU抗SEU技术研究具有重要的理论与实践意义。