论文部分内容阅读
数据安全性、隐私性、信任度等广泛存在于生物工程、智能制造、现代农业、智慧医疗和公共安全等诸多领域,面向飞速增长的大数据,如何进行快速有效的存储和处理是核心问题,其依赖于所采用的数据分析框架和相应的计算环境,在已有的大数据计算框架中,运行于云计算环境的Map Reduce和Spark是典型代表。大数据环境下以数据块为单位进行存储和处理,在不同的计算框架下,任务间的约束关系并非独立,可能线性约束(如Map reduce框架下的任务),也可能非线性约束(如Spark框架下的工作流任务),应用还可能有截止时间的要求,如何将这些任务快优稳地调度到地理上分布且还可能异构的云计算资源上是实际应用的关键;其次,安全性、隐私性、信任度等不同需求大大增加了调度难度。本论文研究面向具有安全、隐私、信任、中断约束等实际应用需求的大数据任务调度具有重要的理论意义和广泛的应用价值。论文的主要工作如下:(1)考虑具有安全性和中断约束的分布式Map Reduce任务调度,提出一个具有安全性和中断约束的算法框架,包括任务匹配、队列排序和中断检验的三个算法组件。提出map任务阶段考虑任务优先级和数据安全性的任务和资源匹配策略;构建reduce阶段开始前对已分配map任务进行排序并采用最早可用时间优先规则对reduce任务进行排序的机制;建立依据据中断概率对中断节点任务进行重调度以调整映射过程的方法。基于随机实例,采用方差分析技术校正算法参数;基于标准测试集对算法进行对比,对比结果表明所提出算法性能受到中断概率和节点数影响较大。(2)考虑具有信任约束的云工作流调度问题,建立基于直接信任和间接信任的通用信任模型;提出一个迭代调整启发式算法框架,包含初始解生成、候选解构造和结果调整的算法组件;建立初始解生成的三种启发式候选规则,提出两种候选解构造策略以进行局部搜索,基于最小化总成本信任比构建最大最小规则的解调整策略。基于随机实例,采用方差分析技术校正算法参数;基于标准测试集将校正后的最佳算法与现有类似调度问题的修正算法进行对比,实验结果验证了所提出算法在性能上的优越性。(3)考虑具有隐私数据的混合云工作流调度问题,提出一个具有隐私数据的混合云工作流调度算法框架,包含截止期划分、stage排序、任务调度和结果调整等四个算法组件;构建出截止期划的三种不同候选规则算子,建立stage排序的三种简单规则候选操作,分别提出隐私任务和非隐私任务的调度策略,构造基于空闲slot搜索的结果调整方法,通过提高虚拟机的利用率以最小化租赁成本。基于随机实例,采用方差分析技术校正算法参数;基于五种不同结构的科学工作流标准测试集对算法进行对比,实验结果表明所提出在绝大部分情况下优于对比算法。(4)考虑具有数据亲和性的云服务工作流调度问题,提出一个具有数据亲和性的云服务工作流调度算法框架。该框架包含了四个算法组件:根据Stage的不同时间参数的优先级对Stage进行排序,对Stage内并行执行的任务进行排序,设计了四种虚拟机搜索策略为任务分配资源,最后对前三步获得的解进行优化,调整Stage序列,利用空闲时间快进一步最小化最大完工时间。通过模拟实验确定算法框架中每个算子的最优选择,然后在两种科学工作流实例上与修改后的类似算法进行比较,证明了该算法的高效性。