【摘 要】
:
近年来,随着GPU等加速器不断发展,基于加速器的异构计算正逐渐成为高性能计算的主流。然而集群架构越来越复杂,同一应用,运行在不同体系架构上往往需要开发多个版本,这给代码
论文部分内容阅读
近年来,随着GPU等加速器不断发展,基于加速器的异构计算正逐渐成为高性能计算的主流。然而集群架构越来越复杂,同一应用,运行在不同体系架构上往往需要开发多个版本,这给代码的开发和维护都带来了很大的挑战。OpenACC是基于指令的并行编程模型,为应用在多种平台上(包括GPU,x86多核处理器)提供了可移植性。GTC-P是基于particle-in-cell(PIC)算法,模拟粒子和等离子通过托卡马克装置时运动的科学应用。由于其极佳的可扩展性,GTC-P现已在Top500排名前10的6台超级计算机上进行了性能测试[1],还入选了美国能源部下属的NERSC国家超算中心的基准测试集[2]。我们在原有的OpenMP版本GTC-P基础上,使用OpenACC移植和优化GTC-P,并在多平台、大规模节点上进行测试分析。通过移植和一系列优化工作,包括数据局部性优化,线程映射优化和CUDA局部代码优化等工作,我们在单节点上实现了4.2倍加速。我们仅仅用了300行左右的OpenACC指导语句,就实现了CUDA代码90%以上的性能。而在大规模节点测试中,我们在Titan上4096个计算节点进行了拓展性实验,并对实验结果展开了分析。本研究主要贡献如下:首先,我们首次通过OpenACC完成GTC-P的移植和优化工作。通过数据局部性、线程映射等优化手段,OpenACC单节点实现了4.2倍加速。我们发现OpenACC的原子操作对性能影响很大,针对GPU和x86多核,我们分别提出了两种不同的优化手段减小原子操作影响。其次,据我们所知,这是首次在大规模节点上对OpenACC移植的实际应用进行测试分析。我们对算法进行了调整,通过重复计算减少GPU内存使用,从而使模拟的问题规模进一步增大。我们在Titan上超过4000个计算节点对OpenACC的性能进行了测试,实验结果显示,在大规模节点上,OpenACC实现了和CUDA基本一致的拓展性。
其他文献
传统的模拟量检测手段已无法满足飞机数字化制造的需求,近年来国内飞机制造企业引进了多种的数字化测量设备,数字化测量设备被广泛应用于飞机结构件的外形数据检测和空间位姿测量。将数字化测量设备安装在机器人末端,实现对飞机结构件的自动化扫描测量是飞机数字化测量的必然趋势。扫描路径规划是实现自动化扫描的关键步骤,合理的扫描路径能有效地提高扫描质量和效率。本文针对飞机结构件的外形数据测量需求,将激光扫描仪安装在
随着经济社会的发展,出租车作为城市交通系统的重要组成部分,为人们的出行发挥着重要的保障作用。海口作为海南省的省会城市和旅游窗口,出租车行业无疑也是一张重要的城市名
风险投资作为一级市场的股权投资者,在被投资企业IPO后有足够的动机把股份变现获利。但是,现实中风险投资者在其投资的企业上市后仍继续持有股份。近年来,我国创业板的上市公
超连续谱光源又称为白光激光器,具有光谱宽、亮度高、空间相干性好等特性,在光学相干层析、光谱学、光学频率测量、生物医学等领域具有重要的应用价值。目前,如何获得光谱向
随着对“资本结构之谜”研究的不断发展,许多学者不再局限于从股东、债权人等财务利益相关者角度出发,而是从多元化综合的角度对其进行分析。商业实践让学者们开始意识到关系
利用光学手段对等离子体特性进行表征是一个重要的物理课题,但却受限于光谱的频率范围,X射线、可见光和微波等频段早已应用于不同电子密度的等离子体诊断中。而对于核聚变点
随着十几年来GPU硬件制造技术的不断提升,GPU计算能力以接近摩尔定律的速度飞速发展着。得益于GPU设备的可编程性、高吞吐量和高并发能力,GPU通用计算成为研究热点,也越来越
科学的证据问题曾因经验主义陷入反经验主义的围困而险遭滑坡。出于维护经验主义与捍卫科学客观性的目的,蒯因针对两点提出了自己的证据理论:一是批判反经验主义取消观察的企图,二是修正传统经验主义中僵化的单独主义思想。作为一位彻底经验主义者,蒯因表示,经验主义关乎的是证据问题而非真理问题;科学知识追求的是客观性而非确定性。他从科学内部出发更新经验概念,以观察句的当下自明性与主体间性稳固了观察在科学事业中的证
图像分割是通过对不同特征的像素点进行标记,将图像分割为互不重叠的多个区域的技术。基于图割的GrabCut算法结合了图割理论和高斯混合模型,用户通过简易的交互就能得到良好
随着人类社会数据爆炸性增长,分布式存储系统的规模也越来越大,节点数少则几千多则上万,磁盘或者节点出现故障的概率大大提高。因此,容错技术是分布式存储系统中不可或缺的重