一种支持CUDA应用的软件容错系统

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:sarahfung
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高性能计算需求的不断增长,千万亿次的高性能计算机成为了当前高性能计算领域的研究热点。曙光6000高效能计算机系统是国家智能计算机研究开发中心正在研发的千万亿次超级计算机,它采用GPGPU(General Purpose Graphic Processing Unit)作为加速部件来提升浮点运算的性能。随着高性能并行计算机系统的规模不断扩大,系统中软件和硬件发生故障的概率随之增大,整个系统的可靠性也随之下降。因此,深入研究面向GPGPU混合计算的容错技术,提高系统可靠性成为了当前的重要研究课题。   本文根据曙光6000系统对容错功能的需求,在分析检查点技术和GPGPU混合计算技术的基础上,提出了一种支持GPGPU混合计算架构的检查点系统框架DCR-GPU,设计并实现了支持GPGPU混合计算的容错系统CrGPU,并在原型系统上进行了的功能验证和性能评测。   本文的主要贡献包括:   1.提出了一种层次化的检查点系统框架DCR-GPU。DCR-GPU通过多个层次对基于检查点的容错系统功能进行封装,能屏蔽下层的实现细节,易于实现,且具有一定的灵活性和可移植性。   2.提出了基于临界区的延迟检查点技术和基于GPGPU状态追踪技术的进程状态同步机制。延迟检查点技术通过约束检查点的执行时机,将检查点推迟到CPU与GPGPU的同步点,简化了系统的设计,具有良好的通用性。   3.设计并实现了一个支持CUDA混合计算应用的检查点系统CrGPU。CrGPU在曙光6000原型系统上基于DCR-GPU检查点系统而实现,为曙光6000系统上运行的CUDA应用提供检查点支持,能提高系统的可靠性。
其他文献
Maze是教育网内有着众多用户的P2P共享软件,由北京大学网络实验室于2005年发布,本文主要是针对Maze在系统架构上的单点失效风险以及资源索引时效性缺失的问题,设计并实现了一
函数库是一组目标文件的集合,它们被包含到需要链接它们的程序中。它为软件开发和程序运行提供丰富的库函数,成为计算机系统的重要组成部分。随着计算机系统的不断发展和应用领
分子表面对分子建模和蛋白质分子特性的研究有着重要作用。国外对分子表面计算和可视化的研究已经持续了30多年,然而目前国内还少有这方面的工作。自主研发的三维可视化软件Gr
实时嵌入式系统具有微型化、紧耦合、低功耗、专用性等特点,在规模、结构、能耗、配置等方面对实时嵌入式软件提出更高要求。同时,实时嵌入式软件往往需要满足实时性、安全性、
纵观计算机科学和技术发展的历史,可以发现计算模式已经经历了主机计算、桌面计算和普适计算三个时代。由于人类对生产效率、生活质量的不懈追求,人们开始希望能随时、随地、
信息技术的发展和普及,使越来越多的儿童有机会使用计算机,计算机的恰当使用能够指导和帮助儿童提高其认知及创造能力。编程过程可以有效地提高儿童的逻辑思维能力、想象力和
随着多核系统、集群、云计算等技术的发展,虚拟化技术在应用中体现出来的优势也日益显著,但同时虚拟化环境中的安全可信问题也面临着很大的挑战。   本文对虚拟化环境中的
随着集成电路制造工艺的不断发展,NAND Flash因其非易失性、低功耗、低成本、大容量等特点被广泛应用于各类嵌入式系统中,而设计一款通用、高效的NAND Flash控制器,开发相应的设
头发作为人体的重要特征,对于真实的表示三维虚拟人物起着不可或缺的作用。真实感的头发模拟是计算机图形学中的研究热点,并有着广泛的应用,例如:化妆造型、三维电影和虚拟游
在企业、政府中存在大量不同时期、由不同厂商、在不同平台上建设而成的系统,由于缺少统一规划和标准,彼此之间很难实现信息共享,形成了大量孤岛式的业务应用系统。因此,如何