论文部分内容阅读
云数据中心驻留了数量较多类型各异的云服务,云服务在运行过程会发生异常,云数据中心的异常处理相比传统环境会更困难。首先,云数据中心的规模通常很大,异常会因为规模效应而存在被放大的隐患。其次,大量的云应用会产生海量的运行状态数据,这就导致当服务发生异常时运维人员要花费大量的时间和精力去分析这些数据来定位异常并判定其类型,延长了故障恢复时间。最后,传统的运维模式在设计上就不是面向大规模集群管理的,使得大部分的任务不能用简单的手段一次完成,这就迫使云管理者耗费大量的人工成本。因此,为了提高服务可用性和降低运营成本,研究强健高效的运维方法对云数据中心的管理具有重要的意义。 针对上述问题,本文提出了一个智能异常处理框架,框架定义了整个数据中心的异常处理过程,先对服务产生的状态数据进行采集,然后对采集的海量运行状态数据流进行实时分析进而判定异常的具体类别,得到异常类别后再自动化执行已存储的人为的对该异常的处理方式来解决该异常。由于框架要对海量数据流进行挖掘来判定异常的类别,因此本文还提出满足框架需求的数据流实时分类算法,基于聚簇中心的增量学习kNN算法(BCC-kNN)。BCC-kNN能有效的对数据流进行实时分类,通过将传统分类算法kNN的训练集转化成聚簇中心,大幅降低存储空间并提高分类速度。同时算法利用相似度计算而不是分类模型来预测类别,进而降低偏斜类分布对预测精度的影响。此外,算法还具备增量学习能力,能不断对聚簇中心更新持续的适应新环境。 为了验证框架设计方案的可行性,本文针对BCC-kNN的预测准确率、数据流实时分类预测准确率、对海量数据的处理效率进行仿真实验。结果表明,本文提出的框架能满足到预期的效果。