论文部分内容阅读
大规模集群上的并行计算软件需要具备处理部分节点、网络等失效的容错能力,也需要具有易于管理、维护、移植和可扩展的服务能力.针对星形计算模型,研究和开发了一套并行计算框架.利用调度节点内部的可变粒度分解器、相关队列等方法,实现了全系统容错,且具有较好的易用性、可移植性和可扩展性.系统目前可以实现300 TFlops计算能力下连续运行超过150 h,而且还具有进一步的可扩展能力.