论文部分内容阅读
近年来,集群技术成为国际上并行及分布式计算领域非常活跃的研究课题。其中,很多并行技术都在集群系统上得到了实现。
MPI(Message Passing Interface)是一种消息传递编程模型,在大规模集群型并行机和网格平台中被广泛使用,同时它也是一个标准库的规范,其设计目标是高效率和可移植性。MPI已经成为最流行的用于并行编程的消息传递标准,有多种不同的MPI实现,MPICH是其中应用得最广泛的一种可移植的实现。
提高集群通信的效率和减少通信时间对集群系统的整体性能至关重要。本文首先测试了基于SMP(Symmetric Multlprocessor)结点的集群并行计算机上MPICH通信性能,包括点对点和集群通信,分析了其通信性能和执行效率。
在MPI并行计算系统中,从两方面可以实现通信性能的优化。一个是MPI并行计算程序的通信模式,另一个是MPICH的作业提交方法。
在集群并行机系统中,通信时间取决于许多因素,如结点数、网络带宽、拓扑结构、还有软件算法等。到目前为止关于程序层面上的通信模式被研究得很多,以期达到提高通信效率的目的,相当多的论文也都围绕此展开,所以通信模式的定义也逐渐成熟起来。但是由于以往计算机规模比较小,系统内部所需要的通信时间特别是作业提交过程所花费的时间往往为人们所忽略,随着系统规模的不断扩大,这部分对整体性能的影响也在不断扩大,因此减少系统开销对提高整个并行计算机的效率已变得非常重要,对此本文将进行重点讨论。
本文通过分析当前MPICH的作业提交方法,提出了一系列改进算法,以期达到减少通信时间,优化通信性能的目的。并在由16个结点所组成的SMP集群系统中进行了性能测试。
以上讨论都是只针对同构网络而言的,对于异构的集群式网络,情况可能有所不同,各结点不同的通信性能会影响到整个集群通信性能的优化,在同构网络中最优的算法此时不一定最优。针对这种情况,本文还研究了象COW(Cluster OfWorkstation)集群式系统这样的异构网络,针对不同的异构情况提出了进一步改进的作业提交算法,并且在模拟的环境中得到了验证。