论文部分内容阅读
科学工作流是对大规模科学实验进行自动化完成的过程。作为一种数据密集型应用,科学工作流已被广泛用于处理和分析科学研究中的大规模实验数据。由于云环境可提供科学工作流执行需要的计算与存储资源,越来越多的科学工作流开始部署到云环境下。但是,科学工作流部署在云环境下也面临着诸多挑战。首先,科学工作流执行过程耗时较长,怎样提高科学工作流的执行性能是面临的挑战之一;其次,云计算采用按需计费的计算模式,在云环境下部署科学工作流的费用开销也是需要考虑的问题;另外,云环境允许多用户共享资源,如何保证云环境中数据的安全也是亟待解决的问题。针对科学工作流部署在云环境下面临的挑战,本文的主要研究工作如下:1、结合多个科学工作流应用的中间数据频繁使用造成的执行效率低下问题,提出了一种中间数据副本放置策略来有效地提高多个科学工作流的执行效率。首先,该策略根据中间数据的使用频率阈值来选择中间数据进行复制;然后,根据各中间数据的大小对复制的中间数据设置不同的副本个数;最后,以数据传输时间为主要目标,使用遗传算法对中间数据副本放置问题进行求解,保证科学工作流执行效率的前提下兼顾全局负载平衡。2、针对多个科学工作流应用部署在云环境下面临的费用开销问题与执行效率问题,提出了一种成本感知的科学工作流中间数据复制策略,保证执行效率的同时最小化副本的放置成本。首先,对多个科学工作流的执行效率问题与副本放置成本问题进行分析建模;其次,将数据传输时间作为主要目标,放置成本作为次要目标,使用遗传算法求解成本感知的中间数据复制问题,从而在保证科学工作流执行效率的前提下有效地减少副本的放置成本;最后,以数据传输时间与副本放置成本作为评价指标,通过仿真实验与其他类似策略进行比较,验证其有效性。3、针对科学工作流部署在云环境下面临的布局成本问题与数据安全问题,提出了成本感知的中间数据布局策略,在保证数据安全的前提下减少布局成本开销。该策略首先介绍了科学工作流中间数据的安全模型与数据放置成本;然后,以数据安全与数据布局成本为目标,提出了基于蚁群算法的数据布局策略;最后,通过与同类策略进行对比与分析,验证本文策略在保证数据安全与减少布局成本方面具有一定的优势。总之,本文通过分析科学工作流部署到云环境下面临的性能、成本、安全问题,针对科学工作流中间数据副本的放置、中间数据的复制策略及中间数据的布局进行优化。本文研究在一定程度弥补了在云环境下数据复制与数据安全方面研究的不足,尤其是针对多个科学工作流如何考虑经济成本感知的中间数据复制的研究。