论文部分内容阅读
随着云存储服务的日益普及,人们对云存储系统的服务质量、使用成本以及温室气体排放等方面提出了更高的要求。云存储系统是一个具有多数据中心、多种资源、多个数据对象(包括文件、视频、图片等),且服务于多个用户的复杂系统,其资源调度技术是研究如何通过副本放置和带宽分配等手段,实现提高服务质量(包括数据可靠性、带宽供应以及访问局部性)、降低服务成本以及降低二氧化碳排放等目标。为了实现上述目标,云存储资源调度技术需要解决三个难点问题:(1)缺少完善的数学模型来描述资源调度、服务成本、二氧化碳排放和服务质量之间的关系,因此也就难以有针对性的提出有效的资源调度方案;(2)云存储系统较为复杂,由其抽象而来的数学模型一般都是NP难问题,这增加了调度算法的设计难度:(3)系统中的数据对象太多,极大的增加了调度算法的运行时间。在本文的研究工作中,将克服这些难点问题,最终给出合理的解决方案。研究云存储系统资源调度技术需要对用户的访问流量做出准确预测,因此利用时间序列理论中的ARIMA和GARCH模型,实现一种文件下载系统中的流量预测方案,该方案能够准确预测各个文件未来时段内的下载流量。随着视频点播应用被逐步迁移剑云平台上,针对视频点播应用的云存储资源调度技术成为部署大规模视频数据的关键问题。解决该问题的过程共分两个步骤,一是建立数学模型,二是对模型的求解。首先针对多视频频道,多观影用户,多数据中心的系统架构,建立数学模型以描述资源分配、资源费用以及服务质量等要素之间的关系,并通过理论证明对该模型求解是NP难问题。因此,为了获得该模型的解,提出一种分布式算法——DREAM(-L),为分配下载带宽、放置频道副本等问题提供解决方案,使得在云存储系统中的视频点播应用能够以较低的费用满足数据可靠性、带宽供应、访问局部性等服务质量需求。为了优化更多的云存储应用,需要提出更为通用的云存储系统资源调度技术。一方面,扩展此前提出的数学模型和算法,增加上传带宽的分配方案,并优化数据更新开销。另一反面,当系统中需要优化的数据对象大幅增加时,很多资源调度算法的运算时间过长,无法在有效时间内完成资源调度任务。为了提高资源调度算法的运行效率,提出数据对象分组技术,该技术使资源调度算法的运行时间不随数据对象数目的增加而增加。实验结果表明,数据对象分组技术能够保证调度算法在常数时间内完成运算。为了降低云存储系统的二氧化碳排放量,提出了与碳排放相关的云存储系统能耗模型。再利用二氧化碳排放强度这一参数,把能耗模型转化为碳排放模型,并针对碳排放模型提出了对应的分布式求解算法,该算法在满足各种服务质量的前提下,能够尽可能降低系统能耗,并把应用负载调度到二氧化碳排放强度较低的地区,以达到降低二氧化碳排放量的目的。