论文部分内容阅读
本文研究了多集群管理系统上的资源监控和作业调度问题。在多集群管理系统的构建上,本文提出了基于层次化思想的分布式树形体系结构,该体系结构具有良好的可扩展性。
利用分布式树形体系结构,本文设计并实现了多集群监控系统LilyGridMonitor,该系统能够监控多集群系统中各集群及集群中的计算节点的静态资源信息和运行时负载状态。该系统,一方面采用注册机制和软状态协议实现了集群的运行时动态加入和删除,解决了计算资源的动态性问题;另一方面,通过资源探测器的插件机制,实现了资源信息种类的动态加入和删除,解决了计算资源种类的多样性问题。
在LilyGridMonitor系统的基础上,本文设计并实现了多集群作业调度模块,该模块采用基于作业需求的K-Subset算法,将作业分配到合适的集群上执行。该模块作为LilyGBS系统的关键模块运行。本文通过实验验证了该模块的效率和实际可用性。