论文部分内容阅读
并行应用对计算能力的需求永无止境,推动着超级计算机在不断提高单个计算单元性能的同时不断增大系统规模。系统规模的急剧增长,造成消息通信带来的开销日益增加。以全局归约为代表的集合通信,己成为制约系统性能的瓶颈。
超并行处理(Hyper Parallel Processing,简称HPP)体系结构是中国科学院计算技术研究所提出的一种新型体系结构。为了解决集合通信的性能问题,超并行体系结构HPP中引入了全局同步规约网,对集合通信实现硬件加速。本文针对HPP体系结构特点,研究基于HPP全局同步规约网的MPI集合通信。本文的主要工作和贡献有:
1)提出了适应多级并行体系结构的可动态调整通信路径的集合通信框架。该框架能在多级并行体系结构下正确有序的完成集合通信;针对多核结构和HPP体系结构的并行层次多,通信机制多样的特点,该框架还可以自适应调整通信层次和通信机制,以选择最优的通信路径完成集合通信,使得MPI集合通信库在不同体系结构上都能获得最优的性能。
2)设计了一种硬件资源动态发现和管理技术,使得MPI库成为一个全用户级通信库,在透明使用HPP全局同步规约网的同时,还能支持多个通信域(Communicator)和动态创建通信域。该技术包含两个部分:a)进程物理位置识别和网络拓扑感知技术相结合的多级并行结构下的动态路由发现算法;b)硬件资源的分布式管理技术。硬件资源动态发现和管理技术在充分挖掘硬件并行性的同时,最小化了通信关键路径上的开销,能支持多达16个通信域同时进行MPI_Barrier和MPI_Allreduce,且软件开销不超过整个通信开销的2%。
3)提出了面向HPP全局同步规约网的集合通信等价转换算法。HPP全局同步规约网硬件原生支持的集合通信类型只有Barrier和Allreduce操作,本文利用集合通信的等价转换算法,将硬件不直接支持的Allgather、Bcast等集合通信类型也利用硬件加速,使得MPI_Allgather、MPI_Gather、MPI-Bcast和MPI_Scatter获得了与MPI_Allreduce相同的高性能和近似常数的扩展性。
4)在曙光6000超龙分区上实现了基于HPP全局同步规约网的集合通信库,并进行了评测。使用IMB(Intel MPI Benchmark)的评测结果表明,集合通信获得了近似常数的扩展性。MPI_Barrier在16个HPP节点规模开销小于3微秒,MPI_Allreduce在16个HPP节点规模开销为8.3微秒,且两者的软件开销都不超过整个通信开销的2%。