论文部分内容阅读
随着高性能计算需求的不断增长,千万亿次的高性能计算机成为了当前高性能计算领域的研究热点。曙光6000高效能计算机系统是国家智能计算机研究开发中心正在研发的千万亿次超级计算机,它采用GPGPU(General Purpose Graphic Processing Unit)作为加速部件来提升浮点运算的性能。随着高性能并行计算机系统的规模不断扩大,系统中软件和硬件发生故障的概率随之增大,整个系统的可靠性也随之下降。因此,深入研究面向GPGPU混合计算的容错技术,提高系统可靠性成为了当前的重要研究课题。
本文根据曙光6000系统对容错功能的需求,在分析检查点技术和GPGPU混合计算技术的基础上,提出了一种支持GPGPU混合计算架构的检查点系统框架DCR-GPU,设计并实现了支持GPGPU混合计算的容错系统CrGPU,并在原型系统上进行了的功能验证和性能评测。
本文的主要贡献包括:
1.提出了一种层次化的检查点系统框架DCR-GPU。DCR-GPU通过多个层次对基于检查点的容错系统功能进行封装,能屏蔽下层的实现细节,易于实现,且具有一定的灵活性和可移植性。
2.提出了基于临界区的延迟检查点技术和基于GPGPU状态追踪技术的进程状态同步机制。延迟检查点技术通过约束检查点的执行时机,将检查点推迟到CPU与GPGPU的同步点,简化了系统的设计,具有良好的通用性。
3.设计并实现了一个支持CUDA混合计算应用的检查点系统CrGPU。CrGPU在曙光6000原型系统上基于DCR-GPU检查点系统而实现,为曙光6000系统上运行的CUDA应用提供检查点支持,能提高系统的可靠性。