云环境中基于多目标优化的科学工作流数据布局策略研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:yueer40849263
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
天文学、高能物理学、生物信息学等现代科学应用领域通常包含成千上万个任务,并且需要处理大量的数据,因而需要大量的计算资源和存储资源。科学工作流作为一种流行和重要的机制可以帮助科学家自动执行这些科学仿真和数据分析过程。随着的科学研究日益复杂,确保科学工作流的高效执行变得十分重要。由于云计算拥有全球性的分布式数据中心,能够为用户提供了大量的存储空间和高性能的计算资源,它的高效、灵活的特点为科学工作流的执行提供了一种全新的方式。但是,将科学工作流部署在云计算环境上仍然面临许多挑战,在数据布局方面尤为突出。科学工作流的执行过程中,大量的数据需要从一个数据中心传输到另一数据中心,因此,如何更好地布局科学工作流的数据集,降低跨数据中心的数据传输变得非常重要。云环境下的数据中心都有它独特的特征,将科学工作流中大量的数据集存放在某个数据中心是不合理的。因此需要研究一种高效的数据布局策略,提高科学工作流的执行效率。目前存在的数据布局策略主要是基于聚类算法和智能算法,包括k-means算法、遗传算法和粒子群算法等,它们可以减少科学工作流执行过程中数据传输时间,但它们忽略了数据中心间负载均衡,导致数据集被布局在少量的数据中心上,从而影响了整个数据中心的计算能力,进而降低了科学工作流的执行效率。因此,一个高效的数据布局策略应同时兼顾到数据传输时间和数据中心问的负载均衡。基于上述的分析,对数据集进行布局时,同时考虑数据传输时间和负载均衡是很困难的,传统的数据布局方法很难获取高效的数据布局方案。本文运用基于多目标优化的方法对数据集进行布局。解决多目标优化问题通常采用的是基于进化算法的启发式方法,它有着自适应、避免局部最优、黑盒式求解等诸多优点,可以兼顾数据布局策略中的数据传输时间和负载均衡,从而有效解决科学工作流中数据布局问题。本文的研究内容为数据布局策略,通过优化数据传输时间和负载均衡两个目标,从而提高云环境下科学工作流的执行效率,主要工作如下:(1)对云计算环境下科学工作流的数据布局问题进行建模,并举例分析传统数据布局策略的不足,然后给出本文的数据布局方案;(2)将多目标优化思想运用到数据布局中,针对两个目标(数据传输时间和数据中心间负载均衡)进行了优化;(3)采用基于多目标进化算法KnEA的数据布局策略对科学工作流中数据集进行布局,得到数据传输时间和数据中心间负载均衡都较优的数据布局方案;(4)提出了一种将MOEA/D算法和外部档案集搜索相结合的算法EAS-MOEA/D算法。该算法在MOEA/D算法的基础上,将外部档案集作为搜索指导方向,用基于分解的策略进化内部种群和基于非支配排序的策略维持外部档案集,让两种策略共同竞争,因而具有更好的多目标优化性能,与此同时,结合数据布局的基础上,将个体的标准差作为外部档案集搜索指导的重要标准。最后,将EAS-MOEA/D算法应用到科学工作流的数据布局中。通过使用matlab对云计算环境和科学工作流进行仿真,将本文提出的两种数据布局策略与传统的数据布局策略进行对比试验。实验结果显示,本文提出的两种数据布局策略具有更明显的优势,可以有效减少数据传输时间和保持数据中心间负载均衡。本文的研究可以有效地提高科学工作流的执行效率,降低云服务商的运行成本,具有广泛的发展前景。
其他文献
随着互联网的发展,互联网的用户数持续上涨,人们的上网时间越来越多,上网方式也是多种多样,Web服务器在单位时间内处理的请求数也会不断增加,因此,对各个服务器处理高并发的能力也
神经网络算法今年来被国内外学者大量的研究和讨论,在学术领域中属于智能算法和人工智能的重要组成部分,其被广泛的用于机器学习、模式识别、数据挖掘领域等领域,不仅如此,神
随着网络技术的日益发展,VoIP技术现已成为最有前途的技术之一,标准化程度也得到进一步的提高。传统的VoIP技术都是基于客户机/服务器模式。目前将基于分布式结构的P2P覆盖网
伴随着计算机软件行业的飞速发展,用户对软件的质量要求也是越来越高。而作为保障软件质量的最后一道工序——软件测试,对软件质量更具有举足轻重的作用。如何有效地评估软件
无线Ad Hoc网络是一种多个节点聚在一起形成一个无人工干预的、多跳的、无预设基础设施的自组织网络,它在一定范围内实现多个移动终端的互联。军事通信是Ad Hoc网络的一个非
目前,随着各种新技术的广泛应用,我国的国民经济发展迅速,与此同时,能源危机和环境污染也在不断加剧,它们三者之间的矛盾越来越引起人们的广泛关注和重视,迫切需要通过解决这
膜计算作为自然计算的一个分支,其目的是从生物细胞的结构与功能中以及从器官和组织等细胞群的协作中,抽象出计算模型。膜计算模型被称为膜系统,也叫做P系统,具有良好的并行
随着多媒体技术的发展,用于传递信息的图像作为一种重要的媒体和手段,其处理技术受到越来越多人的关注和重视。本文以完成一个基于多尺度分析的智能图像压缩算法为指导思想,
随着社会信息化程度的加深与网络的普及,P2P技术以其低廉的成本与优异的性能,取得了越来越多的关注,发展迅猛。到目前为止,虽然很多基于P2P技术的应用相继被开发出来,但目前
书法碑刻是我国的传统艺术之一,是中华民族宝贵的文化遗产,是我国书法碑刻历史上遗留下来来的精髓和典范,它以独特的艺术魅力和风貌自立于人类社会的文化艺术之林。如何使这