一种支持CUDA应用的软件容错系统

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：sarahfung

【摘要】

：

随着高性能计算需求的不断增长，千万亿次的高性能计算机成为了当前高性能计算领域的研究热点。曙光6000高效能计算机系统是国家智能计算机研究开发中心正在研发的千万亿次超级

【作者】

：

赵力

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2011年期

【关键词】

：

混合计算检查点技术软件容错系统浮点运算可靠性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着高性能计算需求的不断增长，千万亿次的高性能计算机成为了当前高性能计算领域的研究热点。曙光6000高效能计算机系统是国家智能计算机研究开发中心正在研发的千万亿次超级计算机，它采用GPGPU(General Purpose Graphic Processing Unit)作为加速部件来提升浮点运算的性能。随着高性能并行计算机系统的规模不断扩大，系统中软件和硬件发生故障的概率随之增大，整个系统的可靠性也随之下降。因此，深入研究面向GPGPU混合计算的容错技术，提高系统可靠性成为了当前的重要研究课题。　　本文根据曙光6000系统对容错功能的需求，在分析检查点技术和GPGPU混合计算技术的基础上，提出了一种支持GPGPU混合计算架构的检查点系统框架DCR-GPU，设计并实现了支持GPGPU混合计算的容错系统CrGPU，并在原型系统上进行了的功能验证和性能评测。　　本文的主要贡献包括：　　 1．提出了一种层次化的检查点系统框架DCR-GPU。DCR-GPU通过多个层次对基于检查点的容错系统功能进行封装，能屏蔽下层的实现细节，易于实现，且具有一定的灵活性和可移植性。　　 2．提出了基于临界区的延迟检查点技术和基于GPGPU状态追踪技术的进程状态同步机制。延迟检查点技术通过约束检查点的执行时机，将检查点推迟到CPU与GPGPU的同步点，简化了系统的设计，具有良好的通用性。　　 3．设计并实现了一个支持CUDA混合计算应用的检查点系统CrGPU。CrGPU在曙光6000原型系统上基于DCR-GPU检查点系统而实现，为曙光6000系统上运行的CUDA应用提供检查点支持，能提高系统的可靠性。

其他文献

MazeKad-Maze中基于Kademla协议的DHT系统实现及优化

Maze是教育网内有着众多用户的P2P共享软件,由北京大学网络实验室于2005年发布,本文主要是针对Maze在系统架构上的单点失效风险以及资源索引时效性缺失的问题,设计并实现了一

学位

Maze软件MazeKad系统DHT系统资源发布资源下载Kademla协议

面向UniCore32体系结构的C语言函数库的移植与优化

函数库是一组目标文件的集合，它们被包含到需要链接它们的程序中。它为软件开发和程序运行提供丰富的库函数，成为计算机系统的重要组成部分。随着计算机系统的不断发展和应用领

学位

函数库UniCore32体系结构C语言计算机系统

分子简化表面算法的研究与实现

分子表面对分子建模和蛋白质分子特性的研究有着重要作用。国外对分子表面计算和可视化的研究已经持续了30多年，然而目前国内还少有这方面的工作。自主研发的三维可视化软件Gr

学位

分子简化表面算法三维可视化软件分子建模表面绘制解析规则文件格式转换面向对象编程

实时嵌入式软件构件技术研究:建模、验证、配置

实时嵌入式系统具有微型化、紧耦合、低功耗、专用性等特点，在规模、结构、能耗、配置等方面对实时嵌入式软件提出更高要求。同时，实时嵌入式软件往往需要满足实时性、安全性、

学位

实时嵌入式软件构件技术形式化验证开发效率

无线传感器网络中网络层安全机制的研究

纵观计算机科学和技术发展的历史,可以发现计算模式已经经历了主机计算、桌面计算和普适计算三个时代。由于人类对生产效率、生活质量的不懈追求,人们开始希望能随时、随地、

学位

无线传感器网络传感器蠕虫防御匿名路由网络层安全机制

面向儿童的图形化编程系统的研究和实现

信息技术的发展和普及,使越来越多的儿童有机会使用计算机,计算机的恰当使用能够指导和帮助儿童提高其认知及创造能力。编程过程可以有效地提高儿童的逻辑思维能力、想象力和

学位

儿童编程图形化编程语言面向对象编程事件驱动

虚拟机迁移锁机制及基于虚拟化技术的内存泄漏探测

随着多核系统、集群、云计算等技术的发展,虚拟化技术在应用中体现出来的优势也日益显著,但同时虚拟化环境中的安全可信问题也面临着很大的挑战。　　本文对虚拟化环境中的

学位

虚拟机迁移锁机制虚拟化技术内存泄漏

面向存储性能的NAND Flash控制器设计与性能优化

随着集成电路制造工艺的不断发展，NAND Flash因其非易失性、低功耗、低成本、大容量等特点被广泛应用于各类嵌入式系统中，而设计一款通用、高效的NAND Flash控制器，开发相应的设

学位

集成电路NAND Flash控制器存储性能

关于头发造型方法的研究

头发作为人体的重要特征,对于真实的表示三维虚拟人物起着不可或缺的作用。真实感的头发模拟是计算机图形学中的研究热点,并有着广泛的应用,例如:化妆造型、三维电影和虚拟游

学位

计算机图形学头发模拟头发造型头发绘制

基于HDFS的数据交换共享平台的设计与实现

在企业、政府中存在大量不同时期、由不同厂商、在不同平台上建设而成的系统,由于缺少统一规划和标准,彼此之间很难实现信息共享,形成了大量孤岛式的业务应用系统。因此,如何

学位

数据交换数据共享分布式文件系统副本管理数据传输

一种支持CUDA应用的软件容错系统

与本文相关的学术论文