论文部分内容阅读
随着大数据时代的来临和云计算技术的成熟,大数据的分析和处理工作越来越青睐于云计算平台。要利用云计算平台分析和处理分布式大数据,首先要考虑的问题就是如何将分布式大数据调度到云计算平台合适的数据中心上。分布式大数据调度问题为云服务提供商提供合理的调度策略,对降低云服务提供商的成本和提高其服务质量具有很重要的意义。如何针对不同的用户作业模型和利用数据中心成本异构降低成本是个待解决的问题。本文分别研究了用户作业模型为BoTs模型和DAG模型的分布式大数据调度问题。 针对BoTs(Bags of Tasks)作业模型的分布式大数据调度问题,本文建立了问题的多目标规划模型,并且设计了MMCG算法给出了调度方案。本文分别考虑了成本和时延两方面的优化目标,以及容量和负载两方面约束条件。MMCG算法中提出了一种基于BoTs作业模型的用户数据关联度计算方法,计算出所有数据之间的关联度,为后续分割步骤提供了有力的依据。另外,本文设计了一种基于最大最小割的贪婪算法,通过分割关联度矩阵直到满足容量和负载约束条件为止,最终得到问题的解决方案。本问题的优化目标是,在负载和容量的约束下,成本尽量少并且用户时延尽量小。实验结果表明,MMCG算法综合成本和时延两方面有较好的结果。 针对DAG(DirectedAcyclic Graph)作业模型的分布式大数据调度问题,本文沿用了上一个问题的数学规划模型,并根据作业不同的特性提出了 TGCG算法给出了调度方案。本文分析了DAG作业模型和BoTs作业模型的不同点,总结了DAG作业模型的特性。在此基础上,沿用上一个问题的系统模型、平台模型和数学模型,同样得出一个多目标规划问题。TGCG算法中提出了一种基于DAG作业模型的用户数据关联度计算方法,计算出所有数据之间的关联度,为后续原始数据簇去重处理作为依据。另外,本文设计了一种基于作业流分割和原始数据去重的贪婪算法,在容量和负载约束下,分割后的原始数据簇满足条件为止,最终得到一个调度方案。本问题的优化目标依然是在负载和容量约束条件下,成本尽量少并且时延尽量小。实验结果表明,TGCG算法综合成本和时延两方面有较好的结果。