论文部分内容阅读
随着人工智能、云计算以及微服务等技术的发展,IT系统结构日益复杂,进而导致传统的运维技术存在着诸多问题,IT智能运维(Artificial Intelligence for IT Operations,AIOps)逐渐成为了大势所趋。AIOps采用人工智能技术,从可获取的运维监控数据(性能指标、告警信息、系统日志等)中自动学习规则来代替人为制定的规则,从而提高系统的预判能力与稳定性,降低IT系统运维成本,并提高企业的产品竞争力。然而大数据是AIOps的基础,AIOps模型构建所需数据的缺失情况与数据质量等都影响着模型的准确性与泛化性。从数据采集与评估的角度而言,线上数据常被用来构建运维模型,但线上数据的采集会导致模型构建的滞后性,同时传统AIOps流程中又缺少数据质量评估过程,在线数据的数据质量难以保证将会影响模型的实际效果。从模型的角度而言,现有的模型大多默认训练数据足够完备,而在真实场景中,数据往往不够理想,存在很多数据缺失与样本分布差异等诸多问题。针对上述挑战,本文针对AIOps领域存在的数据问题,对数据质量评估与零故障样本下磁盘智能诊断方法进行了研究,主要成果如下:1.从数据采集与评估的角度分析,本文提出了一种AIOps敏捷化方案与数据质量评估方法。AIOps敏捷化方案是将AIOps模型构建阶段提前到测试阶段,利用测试阶段产生的监控数据替代线上采集的数据以训练AIOps模型,进而实现智能运维的早开发与早使用。数据质量方法基于最大均值差异(Maximum Mean Discrepancy,MMD)针对健康评估与故障诊断运维场景对训练数据分别进行趋势性、阶段性、可检测性及可诊断性评估,进而预估数据对模型的适用性。本文基于华为提供的测试环境设置测试用例并构建实验数据集,在该数据集上的实验结果证明了 AIOps敏捷化方案的可行性及数据质量评估模型的有效性。2.从模型的角度分析,本文以磁盘故障诊断这一常见运维场景为例,分析该场景存在的真实数据问题,提出了一种零故障样本下磁盘智能诊断方法,利用旧型号磁盘的正常与故障样本以及新型号磁盘的正常样本对磁盘智能诊断模型进行构建,具体设计了一种深度生成迁移网络(Deep Generated Transfer Learning Network,DGTL-Net),将生成网络与迁移网络进行结合并联合优化训练,解决了新型号磁盘故障样本不易获取且不同型号磁盘属性分布存在差异的问题。最后在Backblaze磁盘开源数据集上对智能磁盘诊断模型进行了评估,证明了所提方法的有效性及可靠性。