论文部分内容阅读
近年来,云计算在资源模式上的弹性、灵活和高效吸引着越来越多的科学应用迁移到云数据中心执行。尽管资源按需获取、按使用量计费和广域网互连等独特优势有利于实现科学合作和高性价比科学计算,但科学计算同时也面临大数据、资源虚拟化、类型多样化和周期计费问题。资源获取与任务调度是科学应用获得高效执行的关键。针对现有研究工作在多数据中心协同调度、满足多方面QoS需求以及应对波动负载模式等方面存在的不足,本文对云数据中心环境下并行应用与并行负载调度算法开展了相关研究,主要工作包括:(1)提出了基于加权K均值聚类的科学工作流数据与任务协同调度算法。该算法基于加权的数据与任务依赖关系构建依赖关系矩阵,利用K均值聚类算法和矩阵分割树在满足存储均衡约束下将依赖度高的数据与任务放置在一起,通过重调整、任务复制和数据预导入进一步优化跨数据中心的数据传输;(2)提出了基于K割的多层图剖分科学工作流数据与任务协同调度算法。该算法通过固定节点融合生成图K割算法所需的端点,利用多层粗粒度化技术压缩工作流图规模,采用图K割算法直接对粗粒度图进行剖分,利用多层细粒度化技术逐层调整剖分结果并对计算任务均衡约束进行处理;(3)提出了基于生物地理学优化的DAG(Directed Acyclic Graph)调度算法。该算法以最近提出的生物地理学优化技术为基础,利用单结构部分编码方式缩小问题求解的搜索空间,通过引入比较函数间接计算适应度来提高算法框架的灵活性,并通过将启发式调度算法作为基准算法来提高求解质量,基于DAG最大并行度初始化资源池以应对按需获取下资源类型和数量不确定的情况;(4)提出了基于算法组合优化的并行负载调度方法。该方法通过在调度器中包含大量不同类型的调度算法来应对波动的负载模式,通过合理的效用函数设计来折衷并行负载执行性能和费用,利用在线仿真调度对组成算法进行性能评估和选择,使用基于算法性能动态分类的时间约束仿真来提高算法选择的质量。综上所述,本文针对当前云数据中心环境下并行应用与并行负载调度中亟待解决的几个关键问题给出了解决方案,并通过标准的并行应用与并行负载验证了提出算法的有效性。本文的工作对于推进并行调度算法研究和推动科学计算发展具有较高的理论意义和应用价值。