论文部分内容阅读
云计算具有按需分配资源、弹性可扩展、面向服务、高性价比等优势,目前已成为主流的计算和服务模式。然而随着云计算的蓬勃发展,云平台的规模和复杂性不断增长,其事故也随之频繁爆发,严重影响了云平台的可靠性和可用性并降低了其可信性。在以虚拟化技术为支撑的云平台,虚拟资源主要以虚拟机的形式进行封装并相互隔离,为用户提供租用服务。本文通过及时检测出处于异常状态的虚拟机,以便在系统性能下降时就采取应对措施,从而改善云平台的可靠性、可用性和可维护性,以此提升其可信性。由于云平台虚拟机数量庞大、采集到的性能指标多、监测实时性强,准确检测出异常虚拟机极具挑战性。本文针对大规模云平台研究虚拟机异常检测若干关键技术。针对云环境设计了虚拟机异常检测框架;系统地研究了特征提取技术,针对无标记和有标记样本集分别提出了相应的无监督和有监督特征提取算法;针对云环境下虚拟机异常检测面临的多种异常类型、不平衡训练样本集、训练样本实时增加等关键问题,利用支持向量机(SVM)在解决非线性和高维的分类问题中特有的优势,系统地研究了基于SVM的异常检测算法;最后在云平台数据集、模拟数据集和标准数据集上对本文研究的算法进行了广泛的实验与分析。本论文的研究工作和创新点具体包含以下几个方面。①在可信性内涵中定义了异常和异常检测,并阐述与现有内涵的关联关系。通过回顾可信计算的发展历史,阐述可信性及可用性、可靠性、防危性、完整性、可维护性五个属性的内涵,明晰可信性威胁因素之间的关联关系,为理解云平台可信性及开发相应的可信性增强方案提供重要的理论基础。②针对云环境设计了虚拟机异常检测框架。分析了云环境下现有的虚拟机异常检测框架存在的不足,并总结了面临的挑战;设计了虚拟机异常检测框架并阐述各模块的功能,明确本文的主要研究内容;形式化定义虚拟机的运行环境属性集和性能指标集;给出了系统假设及相关策略说明。③针对高维性能指标样本集提出了无监督和有监督特征提取算法。形式化描述特征提取并总结需要解决的关键问题;详细分析四种分别基于主元分析(PCA)、线性判别分析(LDA)、无监督模糊线性判别分析(UFLDA)、独立元分析(ICA)的特征提取算法的原理并指出不足;针对无标记样本集,提出了基于无监督模糊核线性判别分析(UFKLDA)的特征提取算法,在UFLDA中引入核方法实现非线性特征提取并解决其不能有效处理非高斯分布样本集的不足;针对有标记样本集,提出了基于有监督核独立元分析(SKICA)的特征提取算法,在ICA中引入核方法和类别标记信息解决非线性混合问题并将其扩展到有监督情形。④针对云环境下虚拟机异常检测面临的关键问题研究了相应的算法和策略。形式化描述虚拟机的异常检测,并总结需要解决的关键问题;阐述了支持向量机(SVM)算法的思想并总结两种基本的SVM异常检测算法;指出了特征选择和线性特征提取与核函数选择之间的等价关系并作了相应的证明;针对在降低样本集维度的同时需要保留原始性能指标的场合,提出了一种特征选择算法-改进的递归特征消除算法(IRFE);针对云环境下虚拟机异常检测面临的多种异常类型、不平衡训练样本集、训练样本实时增加等关键问题研究了基于多类SVM、不平衡SVM、在线学习SVM的异常检测算法;此外,还针对数据采样、样本集更新、异常检测算法选择等问题提出相应的策略。⑤在三种数据集上对本文研究的算法进行了广泛的实验与分析。引入本文采集的虚拟机性能指标集,分析采用性能指标增量进行异常检测存在的问题,确定异常检测的数据源为原始性能指标数据;通过故障注入模拟虚拟机异常并采集云平台数据集,同时也引入现有文献广泛采用的模拟数据集和标准数据集,在这些数据集上对本文研究的特征提取、特征选择和异常检测算法进行实验与分析。综上,本文针对云环境设计了虚拟机异常检测框架,提出或改进了一系列算法,从而解决了其中的一些关键技术问题;对涉及到的每个概念都作了严格定义,对每个研究问题都进行形式化描述。理论分析和实验验证表明,本文设计的异常检测框架能应对云环境下虚拟机异常检测面临的挑战;提出的特征提取算法比现有算法能更有效地处理非高斯样本数据,提取出的特征也更有利于异常检测;提出的异常检测算法能解决虚拟机异常检测面临的关键问题。因此,本文设计的异常检测框架、相关算法和策略为保障云平台的可信性提供了重要的基础。