论文部分内容阅读
【摘要】通过对两套集群的硬件进行合理的配置优化,提高集群节点的运算性能;对集群操作系统进行整体的升级;同时根据科研生产的需要对地震资料处理软件进行升级;根据目前地震数据量对磁盘的需求,对集群的集中存储重新进行规划设计。通过以上的升级改造方法研究,使得集群的整体运算性能提高50%左右,能够满足目前地震资料叠前偏移处理的需求,具备年处理500平方千米三维地震资料的处理能力,创造可观的经济效益。
【关键词】集群 硬件 操作系统 应用软件 存储 配置优化
1 引言
随着物探技术的飞速发展,野外地震数据采集的精度越来越高,地震数据量成指数增长,同时地震处理软件功能和版本不断更新,对机器指标也提出越来越高的要求,现有的机器设备由于受到当时物探技术和计算机技术水平的限制,机器配置偏低,操作系统的版本和应用软件的版本也比较低,现有的机器设备和软件已经无法满足地震资料处理的科研生产需求。针对地震资料处理的科研生产需求,我们对集群进行升级改造。
2 硬件升级改造方法研究
2.1 内存升级改造
集群节点的内存就好比一个比赛的场地,比赛场地的大小,决定了承载比赛的规模和进程,同样内存的大小,决定了作业的规模和作业的进程。由于当时技术水平的限制,原有机架式机群的内存只有2GB(256*8),刀片式集群的节点内存只有4GB(4*1GB),已经无法满足现在新版本软件及科研生产的需要,必须进行升级。我们使用专门的软件对节点的主板进行测试,主板能够支持2GB的DDR2 400 ECC REG服务器内存。我们决定对集群内存进行升级改造,将所有节点的内存升级到8GB(2GB*4)。
2.2 硬盘升级改造
对于机架式集群,优化比较简单,我们可以增加一块146GB的硬盘;而对于刀片式集群,由于刀片内部空间的限制,里面还剩一个插槽,因此只能再扩充一块2.5英寸的73GB的SCSI硬盘。通过这样的扩充,基本能够满足目前地震资料叠前处理的需求。
3 操作系统升级改造方法研究
3.1 操作系统升级方案
随着计算机技术的发展和应用软件版本的不断升级,目前的资料处理软件需要的版本至少在RHEL AS 4.6以上,原有的操作系统版本已经无法满足应用软件的要求,如果安装新的应用软件,必须对两套集群的操作系统全面升级,需要对两套集群重新进行安装调试。根据现在常用地震资料处理偏移软件的要求,我们计划对两套集群操作进行重新安装,安装REHL AS4.6操作系统。同时需要安装XCAT集群管理软件和存储文件系统管理软件。
3.2 集群网络安装方法研究
集群的操作系统安装是整个研究的技术关键点,如果无法实现集群操作系统的升级安装,那么后续的应用软件也就无法实现升级。同时集群操作系统的安装也是一个难点,因为我们没有独立安装集群操作系统的经验,以往集群的引进和操作系统的升级都是由厂家工程师完成的,这对于我们来说是个很大的考验。因此我们把集群的操作系统安装作为整个研究的重点。
集群操作系統的安装,关键是如何实现计算节点的批量安装。因为集群节点数量根据集群的规模而不同,少则几十个节点,多则几百到上千个节点,我们不能单独对每个节点进行安装,即使我们能够这样做,一旦在安装过程中涉及到操作系统安装方案的改变,我们又需要重新安装每个节点,可想而知工作量是相当大的,因此我们必须采用批量安装的方法。
集群节点的批量安装的关键是网络安装,为了研究网络安装方法,查阅了大量的资料,我们进行了大量的试验,最终取得了成功。我们在工作站上进行了操作系统的网络安装试验,然后把试验的成果应用的集群计算节点安装上,最终取得成功。
4 集中存储优化配置方法研究4.1 存储的现有结构划分
由于受当时计算机发展水平的限制,当时的操作系统不支持大于1TB的文件系统,因此两套集群的22TB的存储,划分了23个800GB的文件系统,分别挂接在6个I/O节点上。但是随着物探技术的飞速发展,野外地震资料采集精度的不断提高,数据量成指数增长,一块300平方千米的三维地震资料的数据量超过1个TB,800GB的文件系统已经不能很好的满足地震资料处理的需求,因此需要对集中进行重新规划。
4.2 存储参数配置
参照目前2007年底引进集群的存储容量配置,以及实际生产对于磁盘空间的使用需求,我们在以上方案的基础上进行了新的方案的试验,把以上两套存储文件分别做成6TB和16TB的两个文件系统,这样不但使用方便,而且管理也非常简单。
但是由于磁盘阵列本身的限制,在磁盘控制端只能配到14加1的RAID组模式,单个RAID组的容量无法超过2TB。这样不但不能直接做成一个文件系统,而且我们最初制定的方案也需要修改。
为了解决这个问题,我们引入了逻辑卷的概念。在存储节点,通过使用创建逻辑卷组的方法,可以将多个单独的容量较小物理盘捆成一个容量较大的逻辑盘,这样就很好的突破了文件系统容量的限制。通过使用逻辑卷的方法,我们对6TB的存储进行了实验,首先在磁盘阵列端划分了3个RAID组,每个RAID组划分为2个LUN,然后在存储节点端安装PowerPath多路径软件,这样我们得到6块800GB的物理盘,通过创建逻辑卷组的方法,我们将六块盘捆成了4.8TB的逻辑盘。
虽然实现了大容量文件系统的创建,但是使用专用软件对逻辑盘进行了读写测试,测试结果是逻辑盘的读写速度只有每秒60MB左右,而物理盘的读写速度为100MB左右。同时逻辑盘也很不稳定。
根据实验的结果我们调整了存储的设计方案。在磁盘控制器端采用14+1的RAID组配置模式,然后每个RAID组划分为一个LUN,创建为物理盘。这样文件系统的数量减少,单个文件系统的容量也大于1个TB。经过测试,磁盘速度达到了100MB左右,能够满足需要。因此我们制定新的优化方案(如表1所示)。
5 结论
通过对集群节点配置优化、操作系统升级、应用软件升级和集群集中存储的调整优化,使得集群的整体性能提升了50%以上,具备年处理500平方千米三维或1000KM二维的处理能力。使得价值近千万元的集群系统重新得以利用,不但节约了引进新设备的投资,而且缓解了机器资源紧张的状况。同时也锻炼了我们技术人员的队伍,提高技术人员的技术水平和能力,使我们具备了独立安装集群操作系统和应用软件的能力,积累对存储进行配置优化的宝贵经验,填补了吉林油田在该项领域的技术空白。研究成果在同行业中具有很好的应用价值和推广前景。
参考文献
[1] 杜晓军,耿军,吴秋红.基于PXE协议的Linux自动安装原理分析与应用[J].通信技术,2008,41(08):137-138
[2] 车静光.微机集群组建、优化和管理[M].北京:机械工业出版社,2004