云平台中基于用户作业模型的分布式数据调度算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:B08050402
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临和云计算技术的成熟,大数据的分析和处理工作越来越青睐于云计算平台。要利用云计算平台分析和处理分布式大数据,首先要考虑的问题就是如何将分布式大数据调度到云计算平台合适的数据中心上。分布式大数据调度问题为云服务提供商提供合理的调度策略,对降低云服务提供商的成本和提高其服务质量具有很重要的意义。如何针对不同的用户作业模型和利用数据中心成本异构降低成本是个待解决的问题。本文分别研究了用户作业模型为BoTs模型和DAG模型的分布式大数据调度问题。  针对BoTs(Bags of Tasks)作业模型的分布式大数据调度问题,本文建立了问题的多目标规划模型,并且设计了MMCG算法给出了调度方案。本文分别考虑了成本和时延两方面的优化目标,以及容量和负载两方面约束条件。MMCG算法中提出了一种基于BoTs作业模型的用户数据关联度计算方法,计算出所有数据之间的关联度,为后续分割步骤提供了有力的依据。另外,本文设计了一种基于最大最小割的贪婪算法,通过分割关联度矩阵直到满足容量和负载约束条件为止,最终得到问题的解决方案。本问题的优化目标是,在负载和容量的约束下,成本尽量少并且用户时延尽量小。实验结果表明,MMCG算法综合成本和时延两方面有较好的结果。  针对DAG(DirectedAcyclic Graph)作业模型的分布式大数据调度问题,本文沿用了上一个问题的数学规划模型,并根据作业不同的特性提出了 TGCG算法给出了调度方案。本文分析了DAG作业模型和BoTs作业模型的不同点,总结了DAG作业模型的特性。在此基础上,沿用上一个问题的系统模型、平台模型和数学模型,同样得出一个多目标规划问题。TGCG算法中提出了一种基于DAG作业模型的用户数据关联度计算方法,计算出所有数据之间的关联度,为后续原始数据簇去重处理作为依据。另外,本文设计了一种基于作业流分割和原始数据去重的贪婪算法,在容量和负载约束下,分割后的原始数据簇满足条件为止,最终得到一个调度方案。本问题的优化目标依然是在负载和容量约束条件下,成本尽量少并且时延尽量小。实验结果表明,TGCG算法综合成本和时延两方面有较好的结果。
其他文献
学位
随着科学技术的发展,各种新技术的运用使得芯片的成本和体积越来越小,而功能却越来越强大。MP4播放器的发展也是在这种大趋势下,从最初只能播放特定格式视频,到现在可以播放
随着计算机辅助设计技术的飞速发展,人们不仅把计算机作为一种实现设计方案的可视化工具,同时已经开始将机器智能应用在设计工作中最为重要和根本的概念设计阶段,以此激发设
Web服务是当前电子商务重要的解决方案之一,也是互联网发展的热点,其开放性、跨平台等优点引起许多研发人员的重视。传统的Web服务采用的是基于集中式的Web服务注册中心的服
大规模地形的可视化在地理信息系统、虚拟现实、灾害仿真和战场环境仿真等领域中有着重要的应用。随着遥感技术、卫星技术以及计算机技术的快速发展,人们希望能够观察到更广
GIS技术的快速发展,为海洋资源信息化提供了有利的工具。海洋GIS在海岸带开发和管理、海洋渔业、海洋环境监测评价等领域的应用获得了巨大的成功。然而,海洋环境具有动态性,而目
Robo Cup 2D仿真机器人足球比赛平台是多智能体机器人系统研究的一种平台,研究人员可以在该平台上测试不同的机器学习算法。强化学习是机器学习算法中的重要算法之一,它允许
图像融合是将两个或两个以上的传感器在同一时间(或不同时间)获取的关于某个具体场景的图像或者图像序列信息加以综合,以生成一个新的有关此场景的图像。而这个图像是从单一
现如今随着信息技术的迅速发展,用户需求的不断增加,用户的交互方式呈现出多样化的趋势,面对这种情况,越来越多的研究者将视线集中到研究如何将人们的社会行为映射到网络中去
为了更好地解决企业面临的如何提高效率、提高商务处理能力以及如何实现业务过程的自动化等问题,工作流管理系统的设计越来越得到人们的关注。而由于现代企业的信息系统呈现