论文部分内容阅读
随着网格技术的发展和应用,研究重点已经从实现网格系统各核心组件及其基本功能逐渐转向如何保障网格提供非平凡的服务质量(QoS)。可靠性就是非常重要的QoS指标之一。随着网格应用领域的不断扩展和深入,网格可靠性问题成为制约网格技术全面应用的重要因素。然而,由于网格系统本身的复杂性、动态性和异构性,使得网格可靠性难以得到充分保障。近年来,研究者不仅针对网格系统的可靠性建模、评估、分析技术展开研究,而且在网格系统架构的搭建、网格资源管理和任务调度等方面也开始融入可靠性方面的内容。网格工作流已逐渐成为网格环境中设计大规模科学应用的典型范式,其调度问题是网格工作流中关键问题之一,直接影响网格工作流是否能够成功、高效地执行。因此,面向可靠性的网格工作流调度研究具有良好理论价值和实用意义。网格的动态性和自治性等特征给工作流的成功、高效运行带来了巨大挑战,为了有效保障和提高网格环境中任务执行的可靠性能与性能,本文基于对网格系统中不同层面可靠性研究的深入分析,针对网格工作流调度所面临的难点和挑战,重点研究高效的网格工作流调度机制以及提高工作流执行可靠性的策略,论文的主要工作和创新包括:(1)研究并提出了基于M/M/N型可修排队系统的网格资源可靠性评估模型及相应的动态网格工作流调度模型针对网格资源会发生失效并以一定概率进行恢复的情况,采用M/M/N型可修排队系统建立了一个多集群环境中网格资源的可靠性和动态处理能力的综合评估模型。通过模型求解得到各资源站点的稳态可用度、平均队长等指标,据此估算各资源站点上的任务平均排队等待时间。该模型综合考虑了网格资源可能失效以及各资源站点的动态负载情况,更加符合网格系统的实际情况。基于所提出的资源可靠性评估模型,研究提出了一个排队时间感知的动态网格工作流调度模型并设计了相应的动态网格工作流调度算法(QTADGWS)。该算法采用基于列表的调度方式,通过最大化程度重叠工作流任务的数据传输时间和排队等待时间来获取最优性能。仿真实验结果表明相较HEFT、CPOP算法,QTADGWS算法在完成时间和任务平均等待时间等方面能有更好的性能。(2)提出了用户截止时间约束下的可靠工作流调度算法针对多集群网格环境,采用Markov过程对资源站点的处理单元进行可用性建模,并结合随机服务模型描述网格资源的动态负载压力和动态处理能力。提出了工作流截止时间满意度的概念,并基于资源的可用性和动态服务模型,给出了工作流截止时间满意度的计算方法。基于最大截止时间满意度优先的思想,将工作流全局截止时间划分问题描述为一个约束下的非线性规划问题并通过已有方法求解,进而提出了一种截止时间满意度增强的工作流调度算法(DSESAW)。仿真实验结果验证了该算法在网格环境的适应性和用户截止时间保障方面的有效性。(3)针对实际网格环境提出了自适应工作流调度机制和可靠性增强策略针对实际的网格环境——Open Science Grid(OSG),基于工作流系统Swift,提出了一个多阶段网格工作流调度机制,主要包括资源站点发现、资源站点初始评估以及资源站点动态评估和选择。通过基于时间序列的性能预测值评估各资源站点的初始性能,提出了一个基于网格资源站点自适应评分机制的选择算法。为了提高工作流执行的可靠性并尽可能缩短执行时间,设计了一个增量式的任务副本策略,并采用各资源站点任务排队等待时间的经验累积分布函数图来优化任务副本的设置参数。在OSG中完成的大量实验结果表明,所提出的算法和策略能够有效减小工作流调度长度和作业拒绝率。引入多阶段工作流调度机制及优化策略后,能够在OSG中成功完成的Swift工作流规模从包含上百个子任务增加到了四千。