论文部分内容阅读
高性能计算已经从最初提高中央处理器(CPU)主频率的方式发展成基于众核架构的并行计算方式。其中,GPU是众核架构的杰出代表。因为其优秀的并行计算性能和低功耗,所以越来越多的应用通过使用GPU得到了计算加速。作为大气环流模式一个比较重要的物理过程,辐射传输是计算密集型的,所以在辐射传输模拟中会消耗大量的计算资源。目前主流的辐射传输模式RRTMG在保证精确度的前提下大幅度减少了运算量,但是其依然占据物理过程25~35%的计算时间。同时,RRTMG辐射传输算法具有比较弱的数据依赖性。因此,为了进一步提高RRTMG的计算效率,非常有必要采用GPU技术来加速RRTMG。本文针对长波辐射模式RRTMG_LW主要开展以下两方面的工作:(1)分别提出了RRTMG_LW一维、二维和三维区域剖分GPU加速算法,并且基于CUDA Fortran实现了RRTMG_LW的GPU版本G-RRTMG_LW。在RRTMG_LW三维GPU加速算法中,针对子程序rtrnmc提出了“先并行,后累加”的加速方法,实现了rtrnmc并行算法的改进,提升了rtrnmc并行计算效率。实验结果表明,在单GPU上,与单CPU核心计算相比,RRTMG_LW最高实现了30.98倍的加速。(2)将G-RRTMG_LW成功应用到地球系统模式CAS-ESM中。针对大规模异构超级计算系统多节点多GPU的特性,基于MPI+CUDA Fortran混合编程模式提出了RRTMG_LW多节点多GPU加速算法,实现了CAS-ESM的快速计算。实验结果表明,在16个K20 GPU上,RRTMG_LW实现了78.12倍的加速。本文针对RRTMG_LW提出了一系列GPU加速算法,提高了长波辐射物理过程的计算效率,实现了CAS-ESM大规模高效异构计算,为其他物理过程异构计算算法的研究奠定了实践基础。