论文部分内容阅读
近年来,随着高性能异构计算的快速发展,以GPU为代表的众核异构并行计算技术在科研领域开始广泛的应用,其独特的组织架构、强大的浮点计算能力和巨大的数据吞吐量,突破了传统的CPU计算摩尔定律的局限。在电磁粒子模拟仿真领域,时域有限差分方法具有高度并行性和计算密集性,且在电磁模拟计算中,计算过程尤其耗时,为了有效提高运算速度,缩短研发周期,本文的研究以三维粒子模拟软件CHIPIC-3D为基础,致力于在粒子模拟仿真计算中,将密集的电磁场迭代和粒子运动计算移植到CUDA,以CPU-GPU异构并行实现计算加速。CUDA并行移植过程遵循理论分析与编程实践相结合的原则。在深入理解GPU理论基础与硬件架构的基础上,以CUDA Fortran并行编程软件PGI Visual Fortran编译器为工具,实现了一维FDTD中心差分算法的并行计算,与单CPU串行程序相比获得最高10倍的计算加速;深入的理解了GPU并行计算优化的理论与方法,结合其共享内存、常量内存的使用,将计算进一步优化;在理论上分析了FDTD中心差分算法和时偏差分算法的并行性;分析了三维网格的划分与CUDA线程的映射关系,在CHIPIC-3D软件上实现了这两种算法的并行计算,以Tesla K40c系列GPU和Intel Xeon E5-1630系列CPU为硬件平台,对导体波导模型的仿真计算取得了最高10.4倍的计算加速,对冷腔返波管的仿真计算取得了8.8倍的计算加速,对冷腔返波管的仿真计算取得了11.2倍的计算加速;分析了CHIPIC程序粒子计算的串行程序,在CHIPIC-3D软件中部分实现了粒子的并行计算,以热腔返波管为算例,取得4.5倍的计算加速;分析了程序并行移植过程中遇到的问题和瓶颈,针对目前还未解决的问题提出了解决方案,为将来的研究打下基础。基于CUDA的GPU并行计算是首次在拥有自主知识产权的粒子模拟软件CHIPIC-3D上首次应用,且对热腔电子器件仿真有较好的加速比,未来将粒子计算部分进一步的优化,将会更加显著的提高计算加速比。