论文部分内容阅读
根据Top500数据显示,集群系统已经成为高性能计算机的主流,而集群作业管理则是保证集群高效运行的关键,也是集群应用的基础。同时,作业调度算法又是集群作业管理系统的核心,是作业调度的重中之重。一个好的调度算法不但可以减少作业的等待时间,缩短作业响应时间,还能够充分利用系统的资源,提高系统利用率。在众多的集群系统中,OpenPBS是为数不多的开源产品之一,它对集群系统提供了良好的支持。而在作业调度算法中,Backfilling算法越来越被认同是集群作业系统中有效的调度算法。本文对作业管理系统和作业调度算法进行了深入的分析和研究,阐述了集群管理系统OpenPBS系统默认调度算法FIFO,以及Backfilling算法的优缺点。针对OpenPBS系统默认调度算法FIFO调度策略单一、造成大作业长期等待、系统资源利用率低以及Backfilling算法因无法找到合适作业回填而造成资源浪费的问题,提出了LA-RB(Large Area-Reservation Backfilling)算法,并将其引入OpenPBS系统。LA-RB算法以作业所需CPU数及预估运行时间所构成的二维面积作为优先调度条件,引入二级优先级和预约算法来消除大作业的饥饿现象。通过减少回填作业所需的CPU数,并相应增加预估运行时间,使作业能够成功回填,从而提高CPU利用率。为了检验LA-RB算法的有效性,在具有10个节点的集群系统下进行了测试实验。实验证明该算法是合理且有效的。该算法引入OpenPBS系统后,与FIFO及Backfilling相比,大大缩短了作业平均响应时间,同时提高系统CPU的利用率,很好的解决了资源利用率低的问题。