论文部分内容阅读
随着高性能计算产业的蓬勃发展,越来越多的研究机构和商业公司向这一领域投入大量的人力和物力资源。而集群作为高性能计算的一种重要方式,以其高可扩展性和高性价比等优势在高性能计算中占据越来越重要的地位。随着GPU通用计算的发展,GPU异构集群正渐渐成为集群的主流架构。Torque是一种非常常见的开源集群管理系统,广泛应用于高校和其他研究机构的集群环境中。Torque在资源管理方面很强大,支持超过1500个计算节点,几乎支持全部的UNIX/Linux系操作系统并且在不断更新。但是在作业调度方面,Torque比较薄弱,其调度算法过于简单,同时也无法支持GPU作业的调度。本文设计并实现了一种面向异构集群的、基于自学习的动态负载均衡调度算法,对Torque的调度功能进行了扩展。然后设计实现了图像卷积算法和X.264视频编码这两个GPU应用实例,对扩展后的Torque系统进行了测试,发现其能很好地支持GPU作业并且在性能上得到了很大的提升。