论文部分内容阅读
超级计算机系统是世界各国争相抢占的重要战略资源,而性能则是它的生命线。在其性能不断飞跃、功能与结构越来越复杂的同时,超级计算机系统的可用性问题日益严重。为了提高超级计算机系统的可用性,尽量降低失效与维修事件对系统性能发挥的影响,对系统进行可用性评估是必不可少的。然而超级计算机系统不同于普通的计算机系统,它对可用性评估有着自己的特色要求,因此不能直接延用可用性评估的传统指标与方法,而是需要开展更为深入的研究。本文在分析了超级计算机系统的可用性评估研究现状、并总结了普通系统进行可用性评估的一般原理与基本要素的基础上,针对目前工作存在的不足、以及针对直接运用一般原理及其要素开展超级计算机系统的可用性评估时存在的问题,主要开展了三方面研究:(1)面向超级计算机的、具有一定普适性的可用性评估架构与方法研究;(2)面向应用的、能体现超级计算机系统的本质特征的可用性评估指标研究;(3)针对超级计算机系统的可用性评估状态空间模型的数值解析方法中存在的状态空间爆炸问题的解决方案研究。本文的贡献包括四个方面:(1)提出了针对超级计算机的、面向应用的层次化可用性建模(Application-Oriented Hierarchical Availability Modeling,缩写为AOHAM)评估方法。该方法以超级计算机系统的总体特征为基础,立足于不同观察主体的感知角度,采用层次化、模块化的SANs模型建模方法,并利用模型模块间库所(places)与行为(activities)的共享实现系统行为间的关联,最终利用Mobius建模工具来实现一次评估同时满足多个评估需求、以减少重复性评估工作量的效果。(2)提出了两种新的可用性评估指标:可用强度和强度可用性,并对它们的定义和度量规则给出了详细的描述与推导。这两个指标都是基于超级计算机系统的计算能力强度而提出的,前者直接度量的是系统所能提供的计算能力的大小,后者度量的是这种能力在系统的总计算能力中所占的比例。通过对一组参数可变的简单实例模型进行强度可用性与基本可用性的两种方法度量,其结论有力证明了新的可用性指标更能体现超级计算机系统的本质特征,因此更适合用于超级计算机系统的可用性评估。(3)设计并实现了基于MapReduce机制的、状态空间的自动化分布式生成方案。状态空间模型是超级计算机系统的可用性评估的主要方法,而数值解析是该模型的重要求解方法之一。然而,状态空间模型的数值解析方法存在着状态空间爆炸问题,即模型的状态空间随着建模对象系统规模的增长而呈非线性增长,它严重限制了适合采用状态空间模型进行可用性评估的超级计算机系统的规模。解决这一问题的一种重要方法是在分布式环境下并行完成状态空间的生成。针对现有的并行化方案存在对平台环境与操作用户要求高、难以推广应用的问题,本文提出了一种基于Hadoop平台及其核心MapReduce机制的、状态空间生成的自动化并行方案,该方案已在分布式环境下实现,实验的结果表明:(a)该方案具有良好的求解加速比;(b)实验的宿主机平台具有良好的独立性,非常易于扩展,以应对模型所模拟的系统规模的扩张;(c)方案的实现非常简单,便于普通用户的编程应用。因此,该解决方案具有良好的应用前景。(4)实现了对某超级计算机系统的两个核心组成部分——主机系统和外围系统——的可用性评估。对于主机系统,其可用性评估采用了强度可用性评估指标,并从系统维护人员、系统管理员和作业用户等多个层次角度,分析了系统的逻辑层次结构和不同层次的行为模型,建立了各自的SANs评估模型,并利用Mobius工具实现了不同模型模块的整合,从而实现了一次评估模型求解即可满足对多个主体的可用性评估需求的目标。对于外围系统,鉴于其用户观察角度的单一性,因而对它的可用性评估采用了传统的可用性指标,也建立了层次化的SANs可用性评估模型,并实现了基于一定模型参数值的可用性实验评估。通过实现对实例系统不同部分的可用性评估,我们的结论是:采用何种评估指标需要依据情况而定,对于可用性状态而具有布尔特性、拥有单一观察角度的用户的外围系统而言,仍适合采用传统的系统基本可用性进行评估;对于需要体现计算能力强弱、拥有多个位于不同层次的观察主体的主机系统而言,强度可用性是更好的选择。