云环境下基于任务分配和数据集副本的科学工作流数据布局方法

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:bluelpower
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学工作流不仅给科研人员提供了可视化的编程界面,而且使得科研人员可以利用包含计算资源和数据集在内的分布式系统进行协作,从而可以进行大规模的科学实验与知识探索。而云计算以其特有的按需付费模式以及可扩展性强的特点,自问世起,就受到了大量关注,为科学工作流提供了一个良好的运行环境。云环境下科学工作流的数据布局问题成为了科学工作流研究领域的一个热点问题。云环境下,数据中心分布在世界各地,科学工作流在运行期间不可避免地需要进行跨数据中心数据传输,而不同数据布局方案带来的数据布局费用各不相同,这将在很大程度上影响工作流的执行费用。为此,本文在尽可能兼顾数据中心负载均衡的基础上,以降低科学工作流数据布局费用为目标,提出了一种基于任务分配和数据集副本的科学工作流数据布局方法。该方法首先从任务与任务的关系入手,定量计算任务之间的依赖度,接着在此基础上进行任务分配。结合云环境下科学工作流的执行特点,将数据布局方法分成初始阶段和运行阶段两个阶段开展,基于任务分配结果分别为初始阶段和运行阶段完成初始数据集和中间数据集在不同数据中心的布局,并根据不同的副本建立条件建立数据集副本以进一步减少数据传输费用,从而实现科学工作流运行中数据布局的费用优化。最后通过仿真实验验证了本文方法的可行性与有效性。
其他文献
风险投资具有巨大的不确定性和风险性,风险投资主体对投资金融工具和退出方式的选择直接影响投资成败。为了分析风险投资中退出方式和金融工具选择问题,本文基于不同退出方式对
无线Mesh网络(Wireless Mesh Network,WMN)又称为无线网状网络,以其独特的自组织、自管理组网方式,具有部署成本低、覆盖范围广、灵活性强等优点。论文从实际应用需求出发,在