面向应用的加速器增强型异构系统大规模并行计算关键技术研究

被引量 : 0次 | 上传用户:betterfo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模科学与工程计算已经成为当前科学研究不可或缺的重要手段,极大地推动了科技的发展和人类的进步。当前超级计算机已经进入千万亿次(Peta-scale)浮点计算能力的时代,但诸如高能核物理、材料化学、生命科学等一系列挑战性计算应用表现出对百亿亿次级(Exascale)计算能力的超高需求。由于GPU、MIC(又称Xeon Phi coprocessor)等加速器的性能功耗比优势,基于加速器搭建异构超级计算机已经成为高性能计算领域从P级到E级发展的重要趋势,如基于NVIDIA GPU加速器的天河-1A,和基于Intel新型MIC加速器的天河-2。领域应用软件是发挥E级计算系统能力的保障。然而,异构体系结构在缓解通信墙、可靠性墙和能耗墙的同时,加剧了编程墙。因此,如何快速地开发大规模并行应用程序,高效率地发挥当前高性能异构系统的性能,已经成为当前异构并行计算研究面临的一个挑战性问题。我国自主研发高性能超级计算机系统的能力已达到国际顶尖水平,然而与其不相匹配的是,我国的高性能计算应用软件开发的水平还远远落后于国际先进水平。本文面向真实的应用领域,根据课题研究和工程项目实际结合的需要选取了3个具有一定代表性的真实大规模科学与工程计算应用(贝叶斯分析构建物种进化树,组织级心脏电生理学模拟,纳米精度的亚细胞级心脏钙离子动力学模拟),以千万亿次的天河系列异构超级计算机(天河-1A、天河-2)为研究平台,围绕真实应用软件程序开发,研究基于GPU/MIC加速的异构系统的大规模并行计算关键技术。论文工作主要集中在以下四个方面:1.当前贝叶斯分析进化树应用软件都不能同时完全利用异构超级计算机中的CPU和GPU,造成了极大的计算资源浪费。本文面向CPU-GP异构阵列,提出了对贝叶斯进化分析的一种新颖混合并行算法o MC3,使用MPI+Open MP+CUDA的混合并行编程模型,提出一个简单高效的负载划分策略,能够同时高效地利用异构系统中的CPU多核和GPU来协同计算。基于天河-1A的实验测试展示了o MC3对性能的改进和良好的扩展性,验证了负载划分策略。这是首次贝叶斯分析进化树应用扩展到数千CPU核和数百GPU并实现了高效的CPU-GPU同时计算。本文工作同时也具有通用价值,因为它讨论了混合编程技术,可以指导异构系统上其他应用的混合并行编程以及异构协同计算。2.当前缺乏基于大规模GPU阵列的组织级心电模拟设计实现和性能研究,本文基于GPU异构系统,提出了心电模拟中多种细胞模型和数值解法的大规模并行设计和实现方案,并完成了大规模性能量化分析和建模。心电模拟的多节点映射方案整体上通过数据网格的层次化域分解来并行计算任务。上层用MPI多进程开发节点间并行性,下层用CUDA多线程开发GPU众核并行性。数值求解的GPU kernel实现考虑了GPU众核并行度的线程粒度设计,以及局域性的GPU层次存储访问设计。实验在天河-1A上使用多达128个GPU,测试并详细量化分析了三种不同的模型和解法搭配的实现性能。本文研究首次给出了一个在超过100GPU的大规模GPU阵列上完成的心电模拟的性能真实预期。3.由于巨大的计算需求,当前缺乏纳米精度的心脏亚细胞级钙动力学数值模拟。本文基于新型CPU-MIC异构系统,提出了接近纳米精度的亚细胞级钙动力学数值模拟的一种并行设计与实现方案,并在天河-2上获得了真实的模拟结果。联合使用向量化,层次化cache数据分块,寄存器重用等优化手段来克服编程新型MIC体系结构的挑战。并行设计有效开发了单MIC、单节点、多节点的层次化并行。在天河-2上的实验使用多达4096个计算节点(12288个MIC协处理器)获得了1.27 Pflop/s的双精度性能,同时展现了良好的强/弱扩展性。实际获得并分析了一个心肌纤维节在3nm精度长达24ms的模拟结果,使得纳米级精度的模拟更加接近为生物医学领域提供了研究依据。本文是首次在3nm精度上提出了亚细胞钙波动产生和传播模型并获得和分析了模拟结果。4.针对在异构阵列中节点内多MIC和host的高效协同计算问题,本文提出了一种基于节点内多MIC异构阵列,面向Stencil结构化网格计算类应用的并行编程框架MOCS。其包括一个混合并行编程模型的框架抽象、负载划分及流水线式通信优化策略、以及具体的编程实现步骤。其基于Intel MIC软件栈中的两种底层API:COI+SCIF,混合使用MPI+Open MP+COI+SCIF编程,并通过合理负载划分,节点内和节点间通信优化,实现混合多层次并行计算。实验以一个真实3维7点stencil计算网格应用作为例子,按照此框架实现并在天河-2上进行了测试。结果表明,MOCS能较好地解决节点内多MIC阵列的多层次并行,通信隐藏以及CPU-MIC协同计算问题。本文是首次给出了一个在新型节点内多MIC异构阵列面向Stencil计算应用的编程框架。综上所述,本文面向真实领域应用,针对基于GPU/MIC加速器的异构大规模并行计算问题提出了有效的解决方案,并在天河系列超级计算机上进行了验证,对于推动领域应用的异构大规模并行计算研究和领域的实际科研进步具有一定的理论意义和应用价值。
其他文献
职业倦怠指个体在工作重压下产生的身心疲劳与耗竭的状态。在上个世纪七十年代中期,费登伯格首次提出此概念。目前,对于“教师职业倦怠”这个概念,还没有精确的解释,大概是指
本文在对深圳的智能手机生产企业进行调研的基础上,运用SWOT分析和五力分析方法对它们在“走出去”的过程中的竞争力进行了系统分析。文章认为,深圳的智能手机生产企业“走出
对定坤丹(蜜丸)进行了显微鉴定研究,将29种组成药物全部检出,对各组成药物的显微鉴别特征作了简明描述,并附显微特征图。
迈耶·夏皮罗(Meyer Schapiro)是20世纪最具原创性的艺术史家之一。他的研究涵盖了古代晚期、早期基督教艺术、中世纪艺术,以及他毕生最为关注的现代艺术。在他所执教的哥伦
作为一种现代流行的大众文化现象,“粉丝文化”日益深度介入中学生的思想与生活,因此,在深度推进新课改的背景下,对“粉丝文化”与中学生思想政治教育的关联性研究已经成为我
社会主义优越于资本主义,是不容置疑的.社会主义优越性可以体现在很多方面,但不能脱离生产力的发展和共同富裕去空谈社会主义优越性,只有解放生产力,发展生产力,消灭剥削,消
<正> 硫酸钡应用于医药和工业已有多年,但近年来,由于颜料、造纸、橡胶工业的发展,要求微细均匀的硫酸钡作辅助剂或添加剂,而X射线双重造影技术的发展要求更微细均匀的硫酸钡
《艺术的理论与哲学》是夏皮罗撰写的一部论辩色彩很强的著作。此书中每一篇文章几乎都存在着潜在的论敌。本文作者梳理了《艺术的理论与哲学》中夏皮罗的理论主张,总结、分
随着信息化技术的不断提高,知识性数据库不断向集成化、智能化的方向发展,信息检索功能不断发展和完善,在满足用户信息需求的便捷性方面有很大的提升。信息资源的极大丰富,使