论文部分内容阅读
摘要:武汉大学水资源与水电工程科学国家重点实验室建立了以科学计算为基础的高性能计算集群系统。高性能计算集群系统是一种投入较大、设备更新速度较快的大型仪器设备系统。如何进行高效运行和可持续维护管理,是一个值得探索的问题。本文对实验室进行高性能计算集群系统的建设、运行、安全和维护管理等方面的经验与特点进行介绍。
关键词:高性能计算;高效运行;安全管理;维护管理
【中图分类号】O4-39
武汉大学水资源与水电工程科学国家重點实验室(以下简称“实验室”), 于2009 年成立了高性能计算中心,配备了HP刀片系统,理论计算峰值大于1万亿次浮点运算/秒,大大改善实验室和水利水电学院从事大型数值模拟计算的硬件条件。为了更好地为更多的用户服务,如何高效利用和有效管理这个系统就至关重要。
1.系统介绍
高性能计算集群主要用于处理复杂的计算问题,应用在需要大规模科学计算的环境中。高性能计算集群上运行的应用程序一般使用并行算法,把一个大的普通问题根据一定的规则分为许多小的子问题,在集群内的不同节点上进行计算,而这些小问题的处理结果,经过处理可合并为原问题的最终结果。由于这些小问题的计算一般是可以并行完成的,从而可以缩短问题的处理时间。
高性能计算集群在计算过程中,各节点是协同工作的,它们分别处理大问题的一部分,并在处理中根据需要进行数据交换,各节点的处理结果都是最终结果的一部分。高性能计算集群的处理能力与集群的规模成正比,是集群内各节点处理能力之和。
1.1硬件配置
高性能计算机集群采用机架式,可动态扩展。现有节点18个,其中14个计算节点,2个管理节点,2个I/O节点,1个存储阵列。此外包括:机柜、供电系统、布线系统、散热系统,主控制台,KVM等。
图1 系统结构图
计算节点:HP BL460c G6 CTO Blade
CPU:Intel Xeon E5530四核64位处理器,2.4GHz×2颗
内存:16G
硬盘:146GB
网络:InfiniBand网卡
管理节点:HP DL380R06 CTO Chassis
存储节点:HP DL380R06 CTO Chassis
存储阵列:EVA4400--Hard Disk
高速光纤硬盘: 4TB
SATA硬盘: 8TB
1.2软件配置
操作系统:Redhat Enterprise Linux 5
作业调度系统:Sun SGE
编译器: Intel C++、Fortran等,GNU系列
通用数学库: LAPACK和ScaLAPACK,包括BLAS、PBLAS、BLACS等基本线性代数库函数、并行库函数和通信库函数
并行环境: Infiniband MPI并行环境(MPICH1/2)
应用软件:目前安装Fluent、Abaqus和Ansys等软件
1.3高性能计算集群的特点
根据以上配置的硬件设备和软件环境,实验室建立的高性能计算集群具有以下特点:
(1)高可用性。本身互为冗余节点,能够为用户提供不间断的服务,由于系统中包括了多个结点,当一个结点出现故障的时候,整个系统仍然能够继续为用户提供服务;
(2)高可扩展性。在集群系统中可以动态地加入新的服务器和删除需要淘汰的服务器,从而能够最大限度地扩展系统以满足不断增长的应用的需要;
(3)多用户和多任务。Linux系统是一个分时多任务环境,它可以同时做多个事情。Linux系统可以处理一个用户的多个同时的要求,并支持多个人同时活动。
2.系统运行
在CPU 的数目有限(可供计算的CPU共112个),而用户多的情况下, 如何利用现有的资源,合理地安排作业运行,使设备高效运行,对系统管理人员是一个严峻的挑战。根据近一年来的运行情况统计显示,共有近4千个程序在机器上运行过,发现了如下一些问题:
(1)自编程序未在工作站或PC 机上进行预先试验性运行, 就匆忙提交到集群管理节点上,致使运算工作量大大加重,并且有些计算未得到任何有用结果。运行程序未经仔细检查,存在固有的错误, 导致长时间死循环运行或计算结果错误, 浪费了大量的CPU 时间。
(2)提交作业的运算工作量太大,致使在集群上运行时间过长,并造成计算节点宕机,以致在没有得到任何有用结果情况下不得不中止运算。运算作业量过大,造成大量作业排队现象,很拥挤,也会致使运算效率相应降低。
为了提高高性能计算集群的运行效率,缩短用户作业的时间,我们鼓励提交程序可靠、运算时间短或中等的作业,以提高有用研究成果的产出率。我们通过不断与用户的沟通和协调,制定了高性能计算集群的使用规范,其基本原则是:
(1)限制每个用户只能同时运行二个作业,超过的作业将会自动处在排队状态。每个用户排队的作业数目不超过3个。
(2)限制每个作业最多只能使用24个CPU,直至供计算112个CPU被占用完。其后提交的作业按时间先后处在排队状态。
(3)鼓励提交运行时间短的作业。
3.安全管理
高性能计算集群系统是置于网络中的一台具有服务器功能,并能进行大型数值模拟计算的大型设备;按用户需求,此大型设备需保证常年7*24小时不间断运行。因此,我们高度重视它的网络安全和运行安全,并采取了一系列的措施。
3.1网络安全
系统的网络安全性首当其冲的就是用户账号安全。为了确保高性能计算集群系统的网络安全,申请使用本实验室高性能计算集群系统的用户需要遵守以下几点要求:
关键词:高性能计算;高效运行;安全管理;维护管理
【中图分类号】O4-39
武汉大学水资源与水电工程科学国家重點实验室(以下简称“实验室”), 于2009 年成立了高性能计算中心,配备了HP刀片系统,理论计算峰值大于1万亿次浮点运算/秒,大大改善实验室和水利水电学院从事大型数值模拟计算的硬件条件。为了更好地为更多的用户服务,如何高效利用和有效管理这个系统就至关重要。
1.系统介绍
高性能计算集群主要用于处理复杂的计算问题,应用在需要大规模科学计算的环境中。高性能计算集群上运行的应用程序一般使用并行算法,把一个大的普通问题根据一定的规则分为许多小的子问题,在集群内的不同节点上进行计算,而这些小问题的处理结果,经过处理可合并为原问题的最终结果。由于这些小问题的计算一般是可以并行完成的,从而可以缩短问题的处理时间。
高性能计算集群在计算过程中,各节点是协同工作的,它们分别处理大问题的一部分,并在处理中根据需要进行数据交换,各节点的处理结果都是最终结果的一部分。高性能计算集群的处理能力与集群的规模成正比,是集群内各节点处理能力之和。
1.1硬件配置
高性能计算机集群采用机架式,可动态扩展。现有节点18个,其中14个计算节点,2个管理节点,2个I/O节点,1个存储阵列。此外包括:机柜、供电系统、布线系统、散热系统,主控制台,KVM等。
图1 系统结构图
计算节点:HP BL460c G6 CTO Blade
CPU:Intel Xeon E5530四核64位处理器,2.4GHz×2颗
内存:16G
硬盘:146GB
网络:InfiniBand网卡
管理节点:HP DL380R06 CTO Chassis
存储节点:HP DL380R06 CTO Chassis
存储阵列:EVA4400--Hard Disk
高速光纤硬盘: 4TB
SATA硬盘: 8TB
1.2软件配置
操作系统:Redhat Enterprise Linux 5
作业调度系统:Sun SGE
编译器: Intel C++、Fortran等,GNU系列
通用数学库: LAPACK和ScaLAPACK,包括BLAS、PBLAS、BLACS等基本线性代数库函数、并行库函数和通信库函数
并行环境: Infiniband MPI并行环境(MPICH1/2)
应用软件:目前安装Fluent、Abaqus和Ansys等软件
1.3高性能计算集群的特点
根据以上配置的硬件设备和软件环境,实验室建立的高性能计算集群具有以下特点:
(1)高可用性。本身互为冗余节点,能够为用户提供不间断的服务,由于系统中包括了多个结点,当一个结点出现故障的时候,整个系统仍然能够继续为用户提供服务;
(2)高可扩展性。在集群系统中可以动态地加入新的服务器和删除需要淘汰的服务器,从而能够最大限度地扩展系统以满足不断增长的应用的需要;
(3)多用户和多任务。Linux系统是一个分时多任务环境,它可以同时做多个事情。Linux系统可以处理一个用户的多个同时的要求,并支持多个人同时活动。
2.系统运行
在CPU 的数目有限(可供计算的CPU共112个),而用户多的情况下, 如何利用现有的资源,合理地安排作业运行,使设备高效运行,对系统管理人员是一个严峻的挑战。根据近一年来的运行情况统计显示,共有近4千个程序在机器上运行过,发现了如下一些问题:
(1)自编程序未在工作站或PC 机上进行预先试验性运行, 就匆忙提交到集群管理节点上,致使运算工作量大大加重,并且有些计算未得到任何有用结果。运行程序未经仔细检查,存在固有的错误, 导致长时间死循环运行或计算结果错误, 浪费了大量的CPU 时间。
(2)提交作业的运算工作量太大,致使在集群上运行时间过长,并造成计算节点宕机,以致在没有得到任何有用结果情况下不得不中止运算。运算作业量过大,造成大量作业排队现象,很拥挤,也会致使运算效率相应降低。
为了提高高性能计算集群的运行效率,缩短用户作业的时间,我们鼓励提交程序可靠、运算时间短或中等的作业,以提高有用研究成果的产出率。我们通过不断与用户的沟通和协调,制定了高性能计算集群的使用规范,其基本原则是:
(1)限制每个用户只能同时运行二个作业,超过的作业将会自动处在排队状态。每个用户排队的作业数目不超过3个。
(2)限制每个作业最多只能使用24个CPU,直至供计算112个CPU被占用完。其后提交的作业按时间先后处在排队状态。
(3)鼓励提交运行时间短的作业。
3.安全管理
高性能计算集群系统是置于网络中的一台具有服务器功能,并能进行大型数值模拟计算的大型设备;按用户需求,此大型设备需保证常年7*24小时不间断运行。因此,我们高度重视它的网络安全和运行安全,并采取了一系列的措施。
3.1网络安全
系统的网络安全性首当其冲的就是用户账号安全。为了确保高性能计算集群系统的网络安全,申请使用本实验室高性能计算集群系统的用户需要遵守以下几点要求: