论文部分内容阅读
国民经济和科学技术的快速发展对高性能计算机的性能提出了更高的要求,采用通用CPU研制高性能计算机的传统方法,在能耗、散热、成本等方面遇到了重大的挑战。异构体系结构结合了通用处理器和加速处理器两者的优势,逐渐成为高性能计算机领域的主流体系结构。GPU以其强大的运算能力、高存储带宽、低功耗以及较好的可编程性,在异构计算机系统设计中确立了主导地位。在绿色高性能计算时代,CPU/GPU异构系统是一种非常有发展前景的并行计算机类型。大型CPU/GPU异构系统强大的计算能力为大规模科学和工程计算提供了很好的机遇,然而其复杂的硬件结构和独特的程序执行特点又给众多高性能计算研究人员提出了巨大的难题。作为并行计算的一个分支,并行计算模型是对底层并行计算机系统的抽象,其用少量参数反映并行计算机系统的资源和性能特征,是联系并行编程模型与底层并行计算机系统的纽带,对算法设计者意义重大。并行计算模型一般具有通用性,然而,对于新兴的CPU/GPU异构高性能计算系统,由于包含了三个层次的异构特点,现有相关模型已无法准确描述其结构特点和性能影响因素,因此迫切需要针对该类高性能计算系统开展并行计算模型研究,从而为当前以及未来基于该类平台的并行应用开发提供支持。因此研究关于CPU/GPU异构集群的并行计算模型意义十分重大。本文主要完成的工作有:1)系统地综述并行计算模型的相关工作。在深入分析并行计算机体系结构特点及其发展趋势的基础上,概括了国内外有关并行计算模型的研究进展,并对各种模型进行了对比分析。2)提出了面向大型CPU/GPU异构高性能计算系统的并行计算模型,用来抽象该类系统的计算能力和各种通信行为。在分析新模型复杂度的基础上,将其完全映射到TH-1A系统上,并测定出所有模型参数。3)使用CUDA实现NPB-IS、NPB-FT基准程序,并将它们有效移植到TH-1A平台。借助通信密集型应用NPB-IS和计算密集型应用NPB-FT程序,对新模型进行了验证。4)实现了对典型科学应用程序的优化。使用gprof工具找出NPB-IS和NPB-FT的计算和通信瓶颈,然后采用CPU/GPU异构集群编程优化方法对NPB-IS、NPB-FT的计算和通信进行了优化,并对优化结果进行了详细比较和分析。