论文部分内容阅读
计算机在50多年的发展中经历了五次重大的变革,大规模并行处理成为第五代计算机的最重要特征。机群系统以其卓越的性能价格比和良好的可扩展性等因素成为当今计算机体系结构与并行处理的发展方向,能够充分满足我们对计算机处理能力不断增长的需求,是当前的研究热点。 机群作业管理系统直接关系到机群性能的发挥和使用率的提高,是机群的一个重要组成部分。它能够充分利用机群的硬件软件资源及宝贵的CPU时间,有效地管理机群,合理调度作业,因此对机群作业管理系统的研究具有举足轻重的意义。 鉴于作业管理在机群系统中的重要地位,我们展开了对机群作业管理系统的研究。本文在总结前人工作的基础上,系统地研究了机群作业管理的关键问题,提出了机群作业调度的一种新的解决方案,最后就我们开发的基于曙光2000的作业管理系统进行了总结。主要工作包括: 1) 针对对机群作业管理系统的基本概念、组成、功能、特征等方面作了系统的概括。 2) 研究了几种MPP和机群系统上的作业管理系统,分析了它们的背景、基本结构、工作方式和功能特点,最后确立了作业管理系统的评判标准。 3) 从重要性的角度,设计与实现机群作业管理系统的关键问题可分为六个方面:可扩展性、负载平衡、检查点切取、进程迁移、作业调度及其它(资源管理、容错性、多用户特性等)。这几个方面既包括机群作业管理系统的重点,也包括难点。本文就当前它们的研究现状和解决方法进行了论述。