论文部分内容阅读
由于半导体工艺、制造工艺、功耗等各种因素的共同影响,处理器体系结构呈多样化发展趋势,致使高性能计算领域出现了多种并行计算机体系结构。在绿色高性能计算时代,CPU/GPU异构高性能计算系统可以兼顾通用性、性能和效能,是一种非常有发展前景的并行计算机类型。大型CPU/GPU异构系统强大的计算能力为大规模科学和工程计算提供了很好的机遇,然而其复杂的硬件结构和独特的程序执行特点又给众多高性能计算研究人员提出了巨大的难题。并行计算研究涉及的内容非常广泛,本文仅关注并行计算模型、并行编程模型和并行可扩展性模型三个方面。并行计算模型是对底层并行计算机系统的抽象,用少量参数反映该系统的资源和性能特征,为并行算法设计者搭建起软件和硬件之间的桥梁。并行编程模型是一种程序抽象的集合,为并行程序设计者提供一幅透明的计算机软件/硬件系统简图。并行可扩展性模型则描述并行系统随系统/问题规模变化时的可扩展能力。对于新兴的CPU/GPU异构高性能计算系统,现有相关模型已无法准确描述其结构特点和性能影响因素,因此迫切需要针对该类高性能计算系统开展并行计算研究,从而为当前以及未来基于该类平台的并行应用开发提供支持。针对大规模CPU/GPU异构高性能计算系统,本文围绕并行计算模型、并行编程模型和并行可扩展性模型等并行计算关键技术展开深入的分析和研究。论文的工作主要集中在以下五个方面:(1)全面系统地综述了三个并行计算关键技术的相关工作。在深入分析并行计算机体系结构特点及其发展趋势的基础上,系统概括了国内外有关并行计算模型、并行编程模型和并行可扩展性模型的研究进展,给出各种模型的若干典型实例并对其进行了对比分析。(2)提出了面向大型CPU/GPU异构高性能计算系统的并行计算模型HLognGPM。该模型能够有效描述CPU/GPU异构系统的计算能力和各种通信行为,包含延迟、开销、消息间隔、原子通信数目、每字节间隔和处理器性能六个参数,其中决定模型的复杂度和精确度。在分析HLognGPM模型复杂度的基础上,将其简化版HLog3GPM映射到TH-1A系统上,并测定出平台相关的所有模型参数。借助NPB-EP和NPB-CG测试程序,对比分析了五种并行计算模型的性能,发现HLog3GPM模型具有最高的预测精度。(3)针对大型CPU/GPU异构高性能计算系统构建出并行编程模型MPI+OpenMP/CUDA。与常用的MPI+CUDA模型相比,该模型可充分开发CPU/GPU异构系统所包含的巨大计算能力。该模型通过MPI实现节点间的消息传递操作,分别利用OpenMP和CUDA开发节点内多核CPU和众核GPU的计算能力。两种混合编程模型的对比实验表明,本文提出的混合模型具有较大的性能优势,尤其适合易并行类应用。(4)提出协同感知并行可扩展性模型来描述并行算法—GPU集群组合的可扩展性。在并行算法—GPU集群组合扩展过程中,该模型确保计算/协同开销比保持不变,研究系统规模、问题规模和协同开销对该组合可扩展性的影响。大量数值实验表明,该模型能较好地描述并行算法—GPU集群组合的并行可扩展性。另外,该模型可帮助并行应用开发人员发现更好的并行算法—GPU集群组合方式,以及通过小规模组合的性能来预测更大规模时的性能。(5)将长波辐射方案程序移植到大型CPU/GPU异构高性能计算系统上,为领域科学家加速历史遗留代码提供了一定的借鉴经验。在基本保持长波辐射传输过程模拟计算精度的前提下,GPU加速计算可显著提升其计算效率。另外,数值实验还表明RRTM异构混合程序具有较好的强可扩展性和协同感知可扩展性。