论文部分内容阅读
近年来,随着云计算技术的快速发展,云平台已成为企业和应用服务提供商运营的基础性平台,对云资源的智能管理理论和技术的研究也成为服务计算领域的研究热点。如何针对云负载的特点,为用户提供高度智能化服务,实现高效资源利用和快速的服务响应,成为提高云资源管理效果的关键问题。由于云平台具有多种系统架构,提供的资源种类和服务特性有较大差异,同时用户的应用需求也有明显差别,这导致了云平台负载具有时序变化模式多样、资源消耗量波动剧烈和资源需求异构的特点,从而影响对负载变化趋势的预测效果,限制了云平台资源利用效率的提升。为解决上述问题,本文围绕大规模云平台弹性资源提供中的负载预测和调度管理中的失败作业预测等关键问题展开研究,利用云平台监控日志等负载信息,针对云负载数据的时序变化特点和影响作业终止状态的敏感因素,从云负载特征表示入手,提出对负载变化趋势和作业终止状态趋势的预测方法,实现准确、高效的云资源弹性管理与调度优化,从而有效提高云资源利用率。针对大规模云平台负载变化特点,本文分别从理论和实验的角度,对于云负载特征表示及在云资源管理算法中的应用进行了研究。主要研究工作包括以下三个方面:(1)针对负载变化预测时,负载时间序列变化模式多、从而导致单一预测模型难以取得满意预测效果的问题,提出了基于负载变化模式区分的自适应匹配预测方法。该方法根据不同负载变化速率的差异,将负载序列分为快时间尺度序列和慢时间尺度序列两类;在此基础上,分别从云基础设施和应用的视角建模,定义了负载序列变化幅度的特征表示,并考虑了任务的系统属性等特征的表示效果,构建两类混合0-1整数规划模型,通过采用分支定界法求解该模型,实现服务负载序列类型的自适应划分;根据划分结果,分别引入支持向量机和线性回归算法,构建自适应匹配两类变化模型的负载预测方法。分别使用Google数据中心公开的监控日志数据集和校园网云服务访问量负载数据进行验证,实验结果表明所提方法可有效解决负载序列划分时类别阈值难以动态调整的问题,自适应匹配的预测方法既有更高的预测精度,同时预测结果又具有较好的数值稳定性。(2)针对云调度管理中作业失败终止状态的预测问题,提出了基于支持向量机模型的主动预测方法和基于在线序列极限学习机的实时预测方法。首先,以Google数据集为例,分析了作业终止状态的影响因素,提出了结合作业静态特征和动态特征的失败作业特征表示,根据数据分布特点,提出了基于支持向量机模型的失败作业主动预测系统。使用Google数据集验证,结果显示,与常用的特征和预测模型相比,该方法的分类准确率、精确度和假负率等指标性能更好。然后,针对实际应用中作业流式到达,需要在线预测的问题,提出了基于在线序列极限学习机模型的实时预测方法。该方法选择了作业的静态特征,根据作业到达顺序,批量提取特征,用该批负载数据的特征进行作业终止状态预测,和模型更新。使用Google数据集对所提方法与当前常用的离线、在线预测方法进行了时间、精确度的对比分析,结果显示,所提方法建立、更新模型的时间更短,该方法分类的准确率、精确度和假负率等性能更好。(3)针对大规模云平台,异构负载特征难以定义和自适应提取的问题,提出了基于特征表示学习的作业失败状态预测方法。该方法利用深度自编码网络的特征自动提取和极限学习机学习速度快的优势,实现失败任务和失败作业的两级预测。首先分析与失败任务有关的负载序列,确定关系密切的序列;然后将选择的负载序列作为自动编码网络的输入,进行特征提取,将提取到的特征作为极限学习机分类器的输入,预测出任务的终止状态,最后利用作业所包含的各任务终止状态和该作业的系统属性等特征,预测出作业的终止状态。使用Google数据集进行验证,结果表明,与常用的经典机器学习算法相比,自动提取的特征辨识度更高,所提方法的分类精度、查准率和召回率提高,测试时间明显缩短。上述研究成果将为后续的资源动态提供和调度管理等研究奠定基础,使得智能资源管理算法能够更好地适用于大规模、高度动态、复杂的云计算环境。