论文部分内容阅读
随着计算机集群技术的飞速发展,集群作业管理系统已成为高性能计算领域的研究热点之一。然而,作业管理系统一般通过命令行方式进行配置和管理,对用户的知识结构和实际操作技能水平要求比较高,存在配置使用复杂、入门较难、容易出错等不足。如何更加方便有效地使用高性能计算资源成为用户和资源提供者共同关心的问题。本文结合“天河一号”超算平台建设中的实际应用课题,着力于研究基于集群环境的作业管理中间件的设计和实现问题,目标是降低用户使用高性能计算资源的门槛,提高资源利用率。本文主要工作有:(1)本文首先研究了集群技术的定义、体系结构和分类,重点分析了“天河一号”超级计算机的硬件和软件系统结构,然后对集群作业管理系统进行了研究,重点研究了SLURM作业调度器的体系结构、优先级计算策略和工作原理。(2)围绕超算平台的运营需求,本文提出了一种基于用户价值的作业优先级调度策略。本文首先介绍了该策略的提出背景,并对用于多准则决策的层次分析方法(AHP)进行了研究,然后设计了相应的用户价值评价指标体系,并运用AHP方法对指标体系中的各因素对应的权重进行分析和求解,最后基于中间件系统对该策略进行实现和实验。实验结果表明,该作业调度策略能在保证系统整体性能情况下,有效减少高价值用户的作业平均等待时间和作业平均周转时间。(3)本文设计和实现了一个基于集群环境的作业管理中间件系统。本文首先分析了中间件系统的功能需求,并对实现过程中所使用的关键技术进行了深入的研究,然后对系统的设计理念和与作业管理相关的数据表结构进行了介绍,最后进行了代码实现。同时本文设计和实现了一种基于模板的CAE软件封装方法—CAE-APT(CAE Application Packaging Template)。该方法基于XML实现,具有平台无关性,易维护和扩展等优点。作业管理中间件系统已完成原型系统开发,在整个超算集成平台中实现了与门户子系统、集群端子系统的无缝集成,并进行了多次联合测试,运行状况良好。实践结果表明,本文针对集群作业管理系统所作的研究和优化工作,有效地提高了集群系统的作业调度效率和资源利用率,能满足不同价值的用户的资源需求,同时通过集成门户子系统可为用户提供友好的用户操作界面,可有效提高用户工作效率,具有较大的应用价值。