大规模集群系统的性能评价与通信优化研究

被引量 : 4次 | 上传用户：jiang663613

【摘要】

：

集群系统(LINUX Cluster)是一种新涌现出来的高性能价格比的超级计算的解决方案。与以前高度集成(紧密耦合)，全部部件和结构都是专门设计的超级计算机不同，一台集群往往由各种

【作者】

：

唐渊

【发表日期】

：

2004年01期

【关键词】

：

大规模集群系统性能评价通信优化通信行为方式热点测试性能可移植用户级通信 LINPACK标准 FFT标准

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

集群系统(LINUX Cluster)是一种新涌现出来的高性能价格比的超级计算的解决方案。与以前高度集成(紧密耦合)，全部部件和结构都是专门设计的超级计算机不同，一台集群往往由各种各样的通用的商业化部件所组成，几乎没有或很少有专门设计的硬件，即各个部件之间是所谓的“松散耦合”体系结构。这就必然会引发一些对整个系统性能可靠性和稳定性的担忧。而且，由于其所用的各个标准商业化部件原本并非为高性能的并行计算而量身定造，所以如果只是将它们简单的整合在一起，其效率必然是差强人意。特别是整个系统的通信部分，即所谓的集群网络(Cluster Area Networks)，担负着联系各个计算节点的重任，其效率的高低，直接影响到整个系统性能的高低，因此更是关注的焦点。就大规模科学计算在现代高性能集群系统上的实际应用来说，比如孙家昶老师主持863项目《大规模整体油田的精细油藏数值模拟》(863-306-2D11-03-1)，曹建文主持863项目《分布式大规模数值并行理论与算法研究》(863-306-2D01-03-2)以及孙老师主持的973项目《油藏模拟与波动问题及其反问题计算》(G1999032803)等，一致表现出来的是通信时间在大规模并行程序中所占比重越来越大，而且随着使用节点处理器数目的增多，整个应用程序的并行性和可扩展性下降很快，理论峰值的利用率较低。因此，如何从理论到实践上解决好现代高性能集群系统的使用及针对一些关键性的实际应用做好通信上的优化就成了本文中重点想要解决的一个问题。在历史上，主要从以下2个角度看待集群网络的性能问题： ● 主要考察网络的短消息延迟和长消息传输时的最大带宽。并以这两个指标作为评价网络性能的最重要指标。比如Jack Dongarra使用pingpong考察了大量的高性能计算系统，如，Convex，Cray，IBM，Intel，KSR，MEIKO，nCUBE，NEC，SGI，TMC等；Luecke等考察了一些Linux和NT的集群系统上通信网络的性能，如SGI Origin 2000，IBM SP，Cray-T3E等；Petrini等使用单向和双向的ping考查了Quadrics网络的性能。 ● 从通信模型的角度来考虑高性能网络的性能问题。如1993年UC Berkeley的David Culler首先提出LogP模型来刻画并行机上的通信行为；随后又评估了LogP模型各个参数对Intel Paragon，Meiko CS一2等高性能机器的影响;另外还有其他一些基于LogP模型的扩展。但随着现代集群网络从硬件到软件上不断的新的发展，如用户级通信，消息流水等，以上2个观点已无法解释在集群系统上运行大规模并行程序的所有现象。因此，迫切需要有新的研究，新的模型，新的解释。本文的主要工作是:。对于现代高性能集群系统几种主要搭建技术的优缺点进行了量化的研究;。针对一些大规模科学计算的测试基准程序，如NAs Parallel Benchmarks等，在国家973项目集群系统一LSSCZ上实测了它们的性能，得到了它们的变化曲线。将具体的数据与国际上己公布的一些数据和结论等相比较，总结了一些规律。对如何利用好我国现有的高性能集群系统提出了一些合理化建议;·针对一种通信优化方法一“通信与通信的重叠”，做了深入的研究。发现相对高带宽、低延迟的Myrinet 2000对这种优化方法的支持甚至不如百兆快速以太网。也就是说，对于使用到“通信与通信的重叠”这种优化技术的大规模并行程序，在M”inet 2000上的运行速度要慢于百兆快速以太网;或者反过来说，“通信与通信的重叠”在百兆以太网上是一种好的优化技术，而在M梦inet 2000，Gigabit Ethemet，等高性能集群网络反而不是。这也提醒我们，对于并行计算程序来说，要比较准确地预测其通信性能，光考虑底层通信介质的延迟、带宽，甚至现有的LogP，LogGP模型参数等还是不够的，还必须考虑到程序中所实际使用的一些通信行为方式(communieation behavior pattem)/通信优化技术在所运行平台上的支持程度;·由此，提出“热点测试”的观点:根据每个集群网络硬件及通信协议软件的具体特点或某些热点(hot spot)构造出一些特定测试，以获取该通信平台对各种并行计算程序通信行为方式/各种常用的通信优化技术的支持程度;·提出大规模并行程序在集群系统上“性能可移植”的概念:当一个并行程序从一个平台移植印。rt)到另一个平台上的时候，除了要保证正确性以外，还必须是通过一定的参数化模型可预测的。对在现代高性能集群系统上进行大规模科学计算程序的性能预测及其建模作出补充;·在对国际上一个重要的用户级通信协议GAMMA进行大量测试与分析的基础上，总结了用户级通信协议的优缺点，给出了一个适用于小规模集群系统的用户级通信协议框架一，TMachine，;.由于当今超级计算系统TOP 500排名的基准一LINRACK峰值并不能很好的描述大规模科学计算对通信系统的要求。我们提出大规模科学计算性能测试与评估的FFT(Fast Fourier Transform)标准，用以刻画超级计算机/并行机对具有大规模集合通信(eolleetive communieation)的并行应用程序的负荷承载能力，并结合一套完善的软件包一’，尸尸工万?

其他文献

高性能纤维弱节表征方法的研究

纤维弱节是影响纤维性能和质量的决定性因素,虽弱节的理论和测量方法已有报道,并有纤维弱节的理论与实践表征。但大多为棉、毛、涤、碳纤维的一般研究。而对于高性能纤维弱节

学位

高性能纤维弱节表征弱节率拉伸典型曲线力学分析形貌观察

谈挤密桩复合地基施工

指出挤密桩是一种人工复合地基,对于提高地基承载力、消除土的湿陷性和减小渗透性方面具有明显的效果,论述了挤密桩具体施工工艺及技术要求,从中总结出挤密桩在施工中应注意

期刊

挤密桩施工顺序施工工艺注意事项验收标准

论《宠儿》的叙事策略

托尼·莫里森是当代美国文学界最伟大的小说家之一。她于1993年荣膺诺贝尔文学奖，成为当今历史上获此殊荣的第一位非洲裔作家和第二位美国女作家。她的第五部长篇小说《宠儿》

学位

托尼·莫里森《宠儿》叙事时间聚焦人物刻画

DOPS在康复治疗学实习生操作考核中的应用与评价

目的通过对DOPS在康复治疗学实习教学中应用的研究,发现有效的考核与反馈方法,从而改善教学方法,提高教学质量。方法以海南医学院2013级和2014级康复治疗学专业54名实习生作

期刊

DOPS康复治疗学反馈教学应用参考

基于DSP的印刷套色控制系统

凹版印刷在国内外印刷领域占有较大的市场,广泛应用于各个行业的产品包装上,而自动套色控制系统是凹版印刷机实现高精度印刷的重要保证。随着微控制器技术快速发展,特别是高

学位

自动套色凹版印刷DSPCAN总线PID控制

酶解酪蛋白产生酪啡肽的条件研究

酪蛋白是乳中含量最丰富的蛋白质,含有人体生长发育所必须的氨基酸。近年来的研究结果表明,酪蛋白除具有营养功能之外,还具有非常重要的生理功能,是生物活性肽的重要来源。其

学位

酪蛋白酪啡肽酶解反相高效液相色谱

形式的视觉异化与异化克服

本文主要通过对形式的视觉异化与异化克服问题的探讨来研究建筑形式的变革与创新的必然性问题。文章以建筑形式入手，从视觉心理学角度出发，针对当前建筑活动中出现的越来越多盲

学位

形式视觉异化克服

《骆驼草》周刊的文学—文化阐释

期刊与所处时代的历史背景、地域文化、社团流派共同构成了完整的文化生态环境，并在互动关系中共同发展。中国文学的现代化，从本质上体现为文体的进化，文化传播媒介的现代化是实

学位

《骆驼草》北京编辑群体京派

基于Agent的宏观经济智能预测决策支持系统研究

宏观经济决策是宏观经济管理的核心，决策的正确与否直接影响到宏观经济各个管理职能能否正确发挥作用，并将从整体和长远上制约宏观经济管理的效率和效益。预测是决策的前提，只有

学位

宏观经济预测智能决策支持系统多Agent系统模型面向任务协作Agent

地铁广告的品牌效应及创新

本文从地铁广告的优劣势入手,通过分析地铁广告的问题和发展趋势,探讨地铁广告的品牌效应及创新。

期刊

地铁广告品牌效应创新

大规模集群系统的性能评价与通信优化研究

其他学术论文