论文部分内容阅读
随着信息技术和互联网的发展,数据密集型计算变得越来越普遍。云计算以其价格低廉、高性能的计算、适合交互性强的计算和用户使用资源方便得以在工业界迅猛发展,也成为了热门的研究课题,特别是关于资源管理与任务调度的研究。在过去,对于数据副本的管理,主要偏向于安全性,而忽略了副本本身可以被访问,用来增加数据本地性,而静态地规定副本的个数。在数据传输方面,没有考虑云计算系统中节点间的网络带宽,从而可能会增加数据传输的开销。对于负载均衡,由于没有从任务本身出发,造成有的算法虽然接近最优解,但时间复杂度过大或者算法简单,但负载均衡性差。另外,提高云计算系统的整体性能,不是只考虑数据本地性或者负载均衡,它需要平衡所有节点的数据传输时间、任务执行时间和任务排队时间等多个方面。针对以上问题,我们提出了一套算法框架,它根据访问频度、数据大小和存储空间动态地调整数据副本个数。它基于最小传输时间原则,利用数据相关度、节点依赖度、网络带宽情况以及系统信息,利用迭代、循环调度搜索较小的传输时间的数据放置与任务调度方案。它也可以基于负载目标驱动法的思想,精细化地分配任务,均衡各节点负载。它还可以基于提高系统吞吐量,平衡任务排队时间与数据传输时间,得到较高的系统吞吐量。本文主要针对数据放置与任务调度进行研究,主要研究内容包括以下几个方面:1、在第一章,本文首先简单介绍了信息技术发展的背景和问题,阐述云计算的必然性和未来趋势,以及数据放置与任务调度的重要性。然后我们分析现存的关于数据放置与任务调度的工作成果,以及过去研究的问题和不足。最后,介绍了本文的主要工作和全文的组织结构。2、在第二章,我们首先定义和解释云计算,并详细描述了云计算的整体架构层次及各层之间的联系与作用。然后简单介绍和本文相关的云计算技术,更好地理解数据放置与任务调度的云计算的环境背景。最后,我们详细地描述了云计算的具体环境,包括云计算模型、文件读入与读取操作细节和数据处理与任务调度模型。3、在第三章,首先我们探讨了数据本身大小和被访问频率对其副本个数的影响,并推出动态调整数据副本个数的计算公式。然后我们比较了三种数据传输次数、数据传输量和数据传输时间,考虑到数据本身大小、网络带宽和存储空间等因素,提出以数据传输时间作为衡量标准,并推出其计算公式。其次本文提出目标负载驱动法,根据节点性能和任务量,计算节点目标任务量,得出负载均衡偏差,依此来衡量和调节系统负载均衡。另外,本文提以系统吞吐量衡量云计算系统整体性能,并推出其计算公式。在仔细探讨以上因素后,本文提出了根据目标不同,利用不同的计算函数,以循环迭代、不断松弛为原则,搜索较为合理的数据放置与任务调度方案的算法框架。实验表明,本文的算法搜索的数据放置与任务调度方案取得较好的效果。