论文部分内容阅读
云计算提供了安全、快速、便捷的数据存储以及多元化的网络服务,人们可以利用各种数据终端通过网络获得大规模的数据计算以及各种定制服务。云计算技术已经越来越受到人们的重视与广泛研究。从大规模数据中挖掘出用户感兴趣的信息是云计算技术的重要应用领域,而云环境下各节点之间的数据传输已成为大规模数据计算的性能瓶颈之一,如何减少乃至避免数据的传输而又挖掘出具有确定性的有效信息是本文首先所做的研究。在大规模数据背景下,如何有效的管理系统资源,是衡量一个系统性能好坏的重要指标。带有截止期限的提前预定任务调度机制虽然增加了对系统资源的可预测性,但随着任务规模的增加,产生的大量资源碎片将导致系统整体性能以及任务命中率的显著下降,本文针对系统产生的资源碎片做了相关的细致的研究,大大降低了资源碎片对系统性能的影响程度。云计算的商业化特性必须使用户感受到较高的服务质量。在云环境下执行数据密集型工作流时由于存在大量的共享数据而使得用户在享受云计算所带来的高性能计算能力的同时也增加了成本开销。如何使用户的成本收益最大化,享受到最优的服务质量,本文做了较为深入的研究。本文所做的主要研究内容如下:1)为了避免在云环境下并行进行频繁项集挖掘时各个节点间的依赖数据传输,本文提出了一种基于二进制编码聚类的并行频繁项集挖掘算法,不仅通过编码聚类降低了节点间的依赖关系,并且利用一种共享多头表的方式完全避免了节点间的数据传输,大大增加了并行频繁挖掘的执行效率。虽然会产生一些少量的膨胀频繁项,但是实验证明对于多种类型的事物数据集都获得了比现有的并行频繁项集挖掘算法更高的执行性能。2)为了充分利用由带有截止期限的提前预定任务产生的资源碎片,本文用计算几何的相关知识将系统资源进行平面映射,通过对平面水平分割的形式构建多棵具有特殊结构的改进的平衡搜索树,与单树结构相比大大降低了信息更新所带来的时间开销,并通过本文提出的碎片影响度评价指标,综合考虑碎片长度和碎片时间对系统性能所造成的影响,选取最优的碎片进行资源调度,获得了比现存资源调度策略更高的系统利用率和任务命中率。3)为使用户在云环境下执行数据密集型工作流时获得满意的用户服务质量,本文提出了一种基于依赖度分片的工作流调度算法,首先对各个工作流任务进行依赖度分组并按初始参数对其进行优先级赋值,然后根据本文提出的调度算法利用分组关系对优先级任务进行优化调度放置,从而大大减少了用户的使用成本,使用户获得了理想的花费加速比和用户服务质量,同时也使云服务提供商具有更加全面完善的资源服务提供类别。