论文部分内容阅读
集群系统(LINUX Cluster)是一种新涌现出来的高性能价格比的超级计算的解决方案。与以前高度集成(紧密耦合),全部部件和结构都是专门设计的超级计算机不同,一台集群往往由各种各样的通用的商业化部件所组成,几乎没有或很少有专门设计的硬件,即各个部件之间是所谓的“松散耦合”体系结构。这就必然会引发一些对整个系统性能可靠性和稳定性的担忧。而且,由于其所用的各个标准商业化部件原本并非为高性能的并行计算而量身定造,所以如果只是将它们简单的整合在一起,其效率必然是差强人意。特别是整个系统的通信部分,即所谓的集群网络(Cluster Area Networks),担负着联系各个计算节点的重任,其效率的高低,直接影响到整个系统性能的高低,因此更是关注的焦点。 就大规模科学计算在现代高性能集群系统上的实际应用来说,比如孙家昶老师主持863项目《大规模整体油田的精细油藏数值模拟》(863-306-2D11-03-1),曹建文主持863项目《分布式大规模数值并行理论与算法研究》(863-306-2D01-03-2)以及孙老师主持的973项目《油藏模拟与波动问题及其反问题计算》(G1999032803)等,一致表现出来的是通信时间在大规模并行程序中所占比重越来越大,而且随着使用节点处理器数目的增多,整个应用程序的并行性和可扩展性下降很快,理论峰值的利用率较低。因此,如何从理论到实践上解决好现代高性能集群系统的使用及针对一些关键性的实际应用做好通信上的优化就成了本文中重点想要解决的一个问题。 在历史上,主要从以下2个角度看待集群网络的性能问题: ● 主要考察网络的短消息延迟和长消息传输时的最大带宽。并以这两个指标作为评价网络性能的最重要指标。比如Jack Dongarra使用pingpong考察了大量的高性能计算系统,如,Convex,Cray,IBM,Intel,KSR,MEIKO,nCUBE,NEC,SGI,TMC等;Luecke等考察了一些Linux和NT的集群系统上通信网络的性能,如SGI Origin 2000,IBM SP,Cray-T3E等;Petrini等使用单向和双向的ping考查了Quadrics网络的性能。 ● 从通信模型的角度来考虑高性能网络的性能问题。如1993年UC Berkeley的David Culler首先提出LogP模型来刻画并行机上的通信行为;随后又评估了LogP模型各个参数对Intel Paragon,Meiko CS一2等高性能机器的影响;另外还有其他一些基于LogP模型的扩展。 但随着现代集群网络从硬件到软件上不断的新的发展,如用户级通信,消息流水等,以上2个观点已无法解释在集群系统上运行大规模并行程序的所有现象。因此,迫切需要有新的研究,新的模型,新的解释。 本文的主要工作是:。对于现代高性能集群系统几种主要搭建技术的优缺点进行了量化的 研究;。针对一些大规模科学计算的测试基准程序,如NAs Parallel Benchmarks等, 在国家973项目集群系统一LSSCZ上实测了它们的性能,得到了它们的 变化曲线。将具体的数据与国际上己公布的一些数据和结论等相比 较,总结了一些规律。对如何利用好我国现有的高性能集群系统提出 了一些合理化建议;·针对一种通信优化方法一“通信与通信的重叠”,做了深入的研究。 发现相对高带宽、低延迟的Myrinet 2000对这种优化方法的支持甚至不 如百兆快速以太网。也就是说,对于使用到“通信与通信的重叠”这 种优化技术的大规模并行程序,在M”inet 2000上的运行速度要慢于百 兆快速以太网;或者反过来说,“通信与通信的重叠”在百兆以太网 上是一种好的优化技术,而在M梦inet 2000,Gigabit Ethemet,等高性能 集群网络反而不是。这也提醒我们,对于并行计算程序来说,要比较 准确地预测其通信性能,光考虑底层通信介质的延迟、带宽,甚至现 有的LogP,LogGP模型参数等还是不够的,还必须考虑到程序中所实 际使用的一些通信行为方式(communieation behavior pattem)/通信优化技 术在所运行平台上的支持程度;·由此,提出“热点测试”的观点:根据每个集群网络硬件及通信协议 软件的具体特点或某些热点(hot spot)构造出一些特定测试,以获取该 通信平台对各种并行计算程序通信行为方式/各种常用的通信优化技 术的支持程度;·提出大规模并行程序在集群系统上“性能可移植”的概念:当一个并 行程序从一个平台移植印。rt)到另一个平台上的时候,除了要保证正 确性以外,还必须是通过一定的参数化模型可预测的。对在现代高性 能集群系统上进行大规模科学计算程序的性能预测及其建模作出补 充;·在对国际上一个重要的用户级通信协议GAMMA进行大量测试与分析 的基础上,总结了用户级通信协议的优缺点,给出了一个适用于小规 模集群系统的用户级通信协议框架一,TMachine,;.由于当今超级计算系统TOP 500排名的基准一LINRACK峰值并不能很好 的描述大规模科学计算对通信系统的要求。我们提出大规模科学计 算性能测试与评估的FFT(Fast Fourier Transform)标准,用以刻画超级计 算机/并行机对具有大规模集合通信(eolleetive communieation)的并行应 用程序的负荷承载能力,并结合一套完善的软件包一’,尸尸工万?