论文部分内容阅读
随着互联网技术的迅猛发展,目前大多数应用软件都建立在一个庞大、繁杂、跨协议层的大型分布式集群中。这类分布式集群的技术、软件、配置通常会不断地演变,难以避免会发生故障。面对海量的监控数据和庞大的系统,IT(Information Technology)运维人员很难做出迅速、准确的运维决策来应对各种故障。近年来,智能运维(Artificial Intelligence for IT Operations,AIOps)通过引入人工智能技术,提升了IT运维效率。然而,在实际场景中,IT运维依然面临着三个问题:多源异构数据难以整合、运维知识表示不足和故障难以准确预知。在多元异构数据整合方面,已有的运行状态监测模型都只能整合片面的数据,导致沉淀的运维知识也是片面的。在运维知识表示方面,传统的表示方法局限于知识的显示结构,忽略了运维知识的深层含义。在故障预测方面,现有的故障预测方法没有引入运维知识,预测结果缺乏可解释性,可靠性低。基于此,本文提出了有效解决上述问题的IT运维辅助技术,主要包括:(1)提出了自动化构建组件-事件知识图谱的方法,整合了横跨硬件、软件、日志和运行指标的所有数据,使用了机器学习模型生成组件-事件知识图谱,减少了知识图谱构建的人工消耗,解决了多源异构数据难以整合的问题。(2)提出了组件-事件知识图谱的表示学习模型,考虑了实体在不同上下文中含义不同,把实体表示分为了语义表示和结构表示,实现了实体随上下文变化的动态表示,在组件-事件知识图谱三元组分类和链接预测任务上取得了最好的效果,解决了运维知识表示不足的问题。(3)提出了引入组件-事件知识图谱的故障预测模型,利用知识图谱识别事件序列中的关键信息,预测出最匹配的故障类型,提高了预测结果的细粒度,增强了可解释性,解决了故障难以准确预知的问题。(4)基于上述工作,设计并实现了一个基于知识图谱的IT运维辅助系统。综上所述,本文利用历史数据自动化构建了知识图谱,提出了针对该类知识图谱的表示学习模型,并将知识图谱引入到了故障预测中,最终设计并实现了一个基于知识图谱的IT运维辅助系统。