论文部分内容阅读
本文介绍了电信数据网管理的需求和特点,分析了电信数据网故障管理原理和故障管理技术,包括故障采集,故障预处理,故障智能分析,故障定位和故障影响性分析。其中故障采集和故障智能分析是故障管理的重点和难点。由于电信网络规模庞大,网络设备种类繁多,网络结构复杂,给故障的采集造成了一定的困难。我们主要针对网络设备故障,网络性能和服务故障进行采集,但是为了充分利用已有的厂商专业网管和网络安全设备,避免浪费,增加了对已有故障管理系统的故障采集。对于网络设备的故障采集,其中最主要的就是SNMP Trap采集和Syslog采集,这也是实践证明有效的方法,但是由于设备和网络的特殊性还需要辅助的SNMP主动采集、串口采集、数据库采集等采集方法。对于网络性能和服务的故障采集我们采用主动采集,对于重要的网络设备我们使用Mrtg对其重要的性能指标进行监控,如设备的CPU利用率,设备的内存利用率等等,保证网络设备的有效运行,对于整个网络的性能监控我们采用端到端性能采集来进行监控,通过设置从骨干路由器向网络各节点进行端到端性能的探测,统计每个不同路线的端到端性能探测就可以把握整个网络的性能情况,此外对于重要的网络服务也要进行监控,对于网络性能和服务我们可以定义不同的管理指标,一旦性能和服务达不到指标就会产生性能和服务告警。对于已经使用的综合故障管理系统应该充分加以利用,目前最主要和最常用的综合故障管理系统就是Netcool和OpenView,这两种系统都提供了外部接口,可以通过它们获取系统所收集的故障信息。由于大多数厂商专业网管不提供外部接口输出故障信息所以目前并没有特别有效的方法对它们进行故障采集,但是少数厂商网管还是可以部分输出管理设备的故障信息,对于这部分故障信息可以进行采集,并且需要根据厂商提供的网络设备说明文档和设备私有MIB来进行故障含义的解析。为了统一管理不同厂商设备的故障信息,就需要对故障信息的格式进行统一,把故障信息分割成不同的部分,但要保证不丢失故障信息,故障信息的格式统一也为下面的故障信息压缩和自动化处理提供了极大的方便。网络中重复告警和瞬间闪烁的故障很多,这个比例有时会达到99%甚至更高,因此故障的预处理必须对采集上来的告警进行压缩,以减少重复的故障信息。故障的自动化处理的目的主要是完成故障的初步的、简单的分析处理,同时也可以减少告警数量。 <WP=42>故障智能分析也是故障管理的重点,我们主要介绍了故障智能分析的两个方面:一是故障的相关性分析,由于电信数据网中一台网络设备的故障可能会影响许多网络设备的正常工作,导致产生大量的衍生告警,包括传播告警、上升告警和激励告警,但是这些告警不是凭空产生的,是由于系统各部分之间的关联性造成的,因此根据系统各部分的关联关系使用有效的算法就可以去除衍生告警,找到真正的告警原因;二是故障的诊断,现代网络故障管理不仅要查找故障原因,有时给出排除故障的具体建议是更加重要的,我们主要介绍了基于设备的故障诊断方法,根据故障信息,使用SNMP采集设备MIB库中与故障有关的数据进行分析,根据具体的设备给出排除故障的方法。故障定位就是指故障在网络拓扑上的真正位置即故障的根源点,因此故障定位的前提就是系统对网络拓扑的真实准确的发现,只有这样才能建立起整个网络的资源模型。如果很好的完成了系统的拓扑发现并建立了系统资源模型,就可以分析故障的根源点,定位故障在网络拓扑上的的物理位置,这对维护人员准确的分析故障原因并且迅速的排除故障才是真正最有帮助的。网络的故障会对不同的网络资源,客户和业务造成影响,因此我们应该根据故障信息确定故障影响哪些具体的网络资源,提供给网络维护人员作为参考。更为重要的是确定故障所影响的客户和业务,这样才能分析网络为业务和客户提供的服务质量,有针对性的解决问题。对故障影响性的分析主要就是查找故障所关联的网络资源、业务和客户,在故障与网络资源信息、网络业务信息和网络客户信息之间架起一座桥梁,这样可以提高维护人员的工作效率,有针对性的安排工作的优先级,提高服务水平。最后,根据电信数据网管理的故障需求和故障管理的原理,在江西城域网综合网管系统项目中部分应用了上述故障管理技术,针对故障管理的五个主要方面根据实际情况采取了不同的策略,提供了最终的故障管理解决方案。整个方案可比较全面、准确、快速的实现对电信数据综合网基础设备和网络服务的故障进行监控,并结合网络拓扑对故障进行定位,分析故障发生的原因以及可能影响的网络资源和业务。