论文部分内容阅读
随着超级计算技术的不断发展与日渐成熟,超算集群系统开始大量出现并逐渐成为高性能计算的主流平台。如何对超算集群的资源进行实时有效地监控,进而实现对计算资源更合理地分配已成为超级计算中心所面临的一个重要问题。一方面,传统的集群监控采用的是telnet方式,此方法虽然实现简单,但存在执行效率低下、延迟严重以及资源状态可视化差等缺陷。不仅如此,对于监控所得到的数据,传统集群也未能进行有效地利用。另一方面,在目前的超算集群中,资源分配方面通常采用的是先来先服务、Max-min等单一的资源分配策略,这些策略不仅过于简单,而且尚未利用资源监控的资源状态数据引导反馈资源的合理分配,造成了资源监控与分配的脱节。这在一定程度上制约了用户任务执行效率的提升,因此本文针对这些问题,设计和实现超算集成平台的资源监控与分配系统。首先,本文针对目前超算集成平台资源分配方式过于单一、任务执行效率不高以及未充分利用资源监控系统状态数据的问题,提出了一个融合资源监控的IWO-ACO(Ant Colony Optimization based on Invasive Weed Optimization)资源分配策略。IWO-ACO算法依据入侵式杂草算法的“空间散布”机制对蚁群算法的信息素更新规则进行了改进,使得算法在寻优能力和收敛性能上都有了较好的提升;此外还使用了动态挥发、浓度控制及动态均衡等策略,有效地避免了算法的“早熟”现象。然后本文利用IWO-ACO算法和资源监控系统监测的节点负载数据,形成一个融合资源监控的资源分配策略,并给出了相应的策略过程描述和算法流程。其次,基于提出的融合资源监控的IWO-ACO资源分配策略,本文设计并实现了超算集成平台资源监控与分配系统,以弥补传统集群监控延迟严重、可视化差等缺陷。系统采用Spring框架的QuartZ任务调度器定时轮询集群计算节点的负载情况,然后以热图或曲线的形式向用户实时展示超算集群的资源状态,如节点状态、CPU/GPU利用率和内存利用率等。资源监控得到的资源状态数据为本文的资源分配策略提供了负载数据,二者之间形成了一种“负载正反馈-资源合理分配-资源监控”的循环协作模式。最后,本文进行了相关的实验和测试验证。结果表明,融合资源监控的IWO-ACO资源分配策略能有效提高任务执行效率,减少用户任务的周转时间和平均等待时间。超算集成平台资源监控与分配系统以友好的界面实时展示了集群资源状态,具有较大的应用价值。