论文部分内容阅读
作为网络管理的核心功能之一,故障管理承担着保证网络业务正常运行,迅速检测并定位故障的任务。当前故障管理普遍采用基于告警事件关联的方式,随着网络规模和复杂性的增大,该方式暴露出以下问题:1)每个被管实体都会就自身感知的异常状况发出告警,从而导致海量的告警信息产生,其中包含大量重复、冗余的告警,对管理系统的计算能力形成挑战。2)虚假告警、告警延迟和告警丢失影响了故障诊断的准确性;3)异构网络的存在影响了管理系统的可扩展性。对于故障管理系统来说,告警是一种被动的信息收集方式,一条告警反映了网络中某个事件的发生;而主动探测则是一种主动地获取网络症状方式,每个探测可以实时地获取探测路径上的网络元素状态。主动探测的主动性、自适应性能够弥补告警方式的上述缺陷,在故障管理中具有很大的应用潜力。
本文研究了使用主动探测进行故障管理的基本原理,分析了相关关键问题,并提出了某些新的问题解决方案;本文还通过实际的故障管理系统展示如何使用探测技术进行有效的故障诊断。本文的主要内容包括:1)研究总结了故障管理中使用探测的方法及其关键问题,包括流程和算法;2)分析并改进了故障检测和故障定位阶段的探测选择算法,提出一种高效的启发式算法来替代高复杂度的贝叶斯推理算法;3)分析并改进了建立探测依赖模型的方法,提出扩展依赖矩阵的方法;4)通过一个故障管理实验验证了主动探测在故障管理中的应用,并对结果进行了比较分析。