论文部分内容阅读
[摘要]铁路通信传输系统是铁路系统从指挥调度到具体现场运行检修及维护的信息重要获取通道,一旦通信传输系统系统出现故障,则会造成影响运输的重大事故,为此在通信传输系统的日常维护工作中要求我们对各类故障进行定位并及时排除。
[关键词]基本原则 SDH 故障 处理方法
中图分类号:TD327.3 文献标识码:A 文章编号:1009-914X(2013)05-0299-01
一、传输故障定位的基本原则
传输故障定位一般应遵循“先抢通后修复、先外部后传输、先单站后单板,先线路后支路、先高级后低级”的原则。
1.1先抢通后修复
在出现故障时,系统維护者要首先抢通业务然后进行故障修复。如果存在影响业务情况下的传输网络告警故障,如在2Mbit/s业务通道出现LOS(信号丢失)告警,因外线原因导致的收无光告警,单元盘故障产生的UnitFailure(单元失效)告警等情况下产生的故障,必须首先抢通业务。
1.2先外部后传输
在处理故障时应先排除外部的可能因素,如断纤、终端设备故障、电源或机房环境配套故障等,而后进行传输系统原因查找。当可能存在外界因素影响而产生传输网络告警故障时,如设备温度告警、光路告警、网元失效告警,也需照此原则处理。
1.3先单站后单板
一般设备故障时,不会只是一个站点出现告警,而是在很多站点同时上报告警。这时就需要通过分析和判断缩小范围,快速、准确地定位是哪个单站的问题,而后尽可能准确地将故障定位到单站后再具体定位到单板。
1.4先线路后支路
在处理故障时,如果支路出现了大量AIS告警,这时需要先排除线路板故障再查看支路板故障。由于传输系统线路板的故障常常会引起支路板的异常告警,在处理告警时,应按“先线路后支路”的顺序,排除网管告警;如支路出现大量AlS则首先查看线路板是否出现LOS告警或其他异常告警,再查看支路板告警。
1.5先高级后低级
在进行告警分析时,先分析高级别告警再分析低级别告警。特别是当高、低级别告警同时存在时,应首先分析级别高的告警,如紧急告警、主要告警,然后再分析低级别的告警,如次要告警、一般告警。处理告警时,系统维护者先处理影响业务的告警。如果这些告警是由更高一级的告警引起的,则先处理更高一级的告警,如AIS、LOP等。如果是由LOS引发的,要先处理LOS告警。
二、SDH传输常见故障形成原因
SDH(Synchronous Digital Hierarchy,同步数字体系)是一种将复接、线路传输及交换功能融为一体、并由统一网管系统操作的综合信息传送网络,它是铁路移动通信系统的重要载体。在日常运行当中导致SDH传输故障的原因很多,按照故障的来源,大体上可分为工程施工缺陷、日常维护操作不当、设备对接失败、设备外部原因及设备本身原因等。
2.1工程施工不规范、质量差
此类故障有的在施工期间就能暴露出来,有的可能在设备运行一段时间或某些外因作用下,才暴露出来,从而为设备的稳定运行埋下隐患。为了杜绝此类故障,施工人员需要严格按工程规范施工安装,认真细致地按规范要求进行单点和全网的调试和测试。
2.2日常维护操作不当
维护人员由于对系统了解不够深入细致,对具体设备的细节、性能特点和注意事项以及新老设备和新旧版本的特点和差别不清楚,就贸然开通而容易导致故障。此类故障最容易在升级扩容、新老设备及版本混用、使用新版的备板和使用未经系统联调的板件的情况下出现。
2.3设备对接失败
由于传送业务的多样性和业务对传输通道性能需求的复杂性,传输设备的对接十分复杂,这时容易出现系列问题,比如线缆连接错误,设备接地不符合要求,传输、交换网络之间时钟同步异常,SDH帧结构中开销字节的定义差别等,都会导致故障的产生。
2.4设备外部原因
设备外部故障也将导致传输故障。导致传输故障的外部原因很多,包括:一、电源系统及配套故障。如交流停电、直流掉电、熔断器故障、供电电压过低、接地不良、环境劣化等;二、光纤光缆故障。如光缆线路中断,光缆线路衰耗过大、尾纤断,尾纤弯曲半径过小,法兰盘接头有灰尘及尾纤头脏等;三、电缆故障。如2Mbit/s电缆中断,2Mbit/s接口输入输出端口脱落、松动而造成的接触不良等;四、交换机故障。
2.5设备本身原因
这指的是设备本身损坏或板件配合存在着问题。常见的现象有:一、单盘故障。如线路板、2Mbit/s板、时钟板、交叉板、主控板等器件损坏;二、网管系统故障。包括网管与设备之间的网线故障或系统异常而造成的ECC通道中断、死机等情况。
三、SDH常见传输故障处理方法
常见的传输故障处理方法包括观察分析法、环回测试法、插拔法、替换法、配置数据分析法、更改配置法、仪表测试法和经验处理法。
3.1观察分析法
系统故障时一般会伴有相应的告警信息。通过观察告警灯运行情况,可以及时发现故障。故障发生时,网管上也会记录非常丰富的告警事件和性能数据信息,通过分析这些信息,并结合SDH帧结构中的开销字节和SDH告警原理机制,初步判断故障类型和故障点的位置。
3.2环回测试法
有时观察分析法不能解决问题,如组网,业务以及故障信息相当复杂的情况和无明显告警和性能信息上报的特殊故障情况。系统维护者可以利用网管提供的维护功能进行测试,判断故障点和类型。最常见的方法是环回。它也是定位故障点最有效和常用的方法,它不需要对告警和性能做太深入的分析,缺点是会影响业务,一般在业务量小的时候使用。
3.3插拔法
当发现某种电路板有故障时,系统维护者可以通过插拔一下电路板和外部接口插头的方法,排除因接触不良或处理机异常产生的故障。在插拔时,系统维护者要注意遵循单板插拔的操作规范,以免导致其它问题甚至损坏板件。
3.4替换法
当用插拔法不能解决问题时,可以考虑替换法。替换法就是使用一个正常的备件去替换一个被怀疑工作不正常的元件,从而实现故障的定位和排除。适用于排除传输外部设备的问题,如光纤、中继电缆、交换机、供电设备等。或故障定位到单站后,用于排除单站内单板的问题。
3.5配置数据分析法
配置数据分析法是指通过开销字节配置及状态分析、更改交叉连接等手段对告警进行辅助判断和处理的故障排除方法。在使用该方法时,应尽量选择JO/J1/V3等不影响业务的踪迹字节和其他状态字节。
3.6更改配置法
更改配置法是对时隙、板位、单板参数重新进行配置。该方法适用于没有备板的情况下,初步定位故障类型,并使用其他业务通道或板位暂时恢复业务。该方法操作起来比较复杂,对维护人员的水平要求较高。
3.7仪表测试法
仪表测试法一般用于排除传输设备外部问题以及与其它设备的对接问题。传输设备常用测试仪表包括2Mbit/s误码测试仪、SDH测试仪、光谱分析仪等。
在SDH传输网络的日常维护过程中,我们经常会遇到各种故障现象并伴随着不同的告警指示,有时甚至出现一样的告警指示,貌似同一故障,却由不同的原因导致。这就需要我们了解故障定位的基本原则,明确故障处理的思路,掌握常见的故障处理方法,从而从容应对各种异常现象,提高日常维护的效果。
[关键词]基本原则 SDH 故障 处理方法
中图分类号:TD327.3 文献标识码:A 文章编号:1009-914X(2013)05-0299-01
一、传输故障定位的基本原则
传输故障定位一般应遵循“先抢通后修复、先外部后传输、先单站后单板,先线路后支路、先高级后低级”的原则。
1.1先抢通后修复
在出现故障时,系统維护者要首先抢通业务然后进行故障修复。如果存在影响业务情况下的传输网络告警故障,如在2Mbit/s业务通道出现LOS(信号丢失)告警,因外线原因导致的收无光告警,单元盘故障产生的UnitFailure(单元失效)告警等情况下产生的故障,必须首先抢通业务。
1.2先外部后传输
在处理故障时应先排除外部的可能因素,如断纤、终端设备故障、电源或机房环境配套故障等,而后进行传输系统原因查找。当可能存在外界因素影响而产生传输网络告警故障时,如设备温度告警、光路告警、网元失效告警,也需照此原则处理。
1.3先单站后单板
一般设备故障时,不会只是一个站点出现告警,而是在很多站点同时上报告警。这时就需要通过分析和判断缩小范围,快速、准确地定位是哪个单站的问题,而后尽可能准确地将故障定位到单站后再具体定位到单板。
1.4先线路后支路
在处理故障时,如果支路出现了大量AIS告警,这时需要先排除线路板故障再查看支路板故障。由于传输系统线路板的故障常常会引起支路板的异常告警,在处理告警时,应按“先线路后支路”的顺序,排除网管告警;如支路出现大量AlS则首先查看线路板是否出现LOS告警或其他异常告警,再查看支路板告警。
1.5先高级后低级
在进行告警分析时,先分析高级别告警再分析低级别告警。特别是当高、低级别告警同时存在时,应首先分析级别高的告警,如紧急告警、主要告警,然后再分析低级别的告警,如次要告警、一般告警。处理告警时,系统维护者先处理影响业务的告警。如果这些告警是由更高一级的告警引起的,则先处理更高一级的告警,如AIS、LOP等。如果是由LOS引发的,要先处理LOS告警。
二、SDH传输常见故障形成原因
SDH(Synchronous Digital Hierarchy,同步数字体系)是一种将复接、线路传输及交换功能融为一体、并由统一网管系统操作的综合信息传送网络,它是铁路移动通信系统的重要载体。在日常运行当中导致SDH传输故障的原因很多,按照故障的来源,大体上可分为工程施工缺陷、日常维护操作不当、设备对接失败、设备外部原因及设备本身原因等。
2.1工程施工不规范、质量差
此类故障有的在施工期间就能暴露出来,有的可能在设备运行一段时间或某些外因作用下,才暴露出来,从而为设备的稳定运行埋下隐患。为了杜绝此类故障,施工人员需要严格按工程规范施工安装,认真细致地按规范要求进行单点和全网的调试和测试。
2.2日常维护操作不当
维护人员由于对系统了解不够深入细致,对具体设备的细节、性能特点和注意事项以及新老设备和新旧版本的特点和差别不清楚,就贸然开通而容易导致故障。此类故障最容易在升级扩容、新老设备及版本混用、使用新版的备板和使用未经系统联调的板件的情况下出现。
2.3设备对接失败
由于传送业务的多样性和业务对传输通道性能需求的复杂性,传输设备的对接十分复杂,这时容易出现系列问题,比如线缆连接错误,设备接地不符合要求,传输、交换网络之间时钟同步异常,SDH帧结构中开销字节的定义差别等,都会导致故障的产生。
2.4设备外部原因
设备外部故障也将导致传输故障。导致传输故障的外部原因很多,包括:一、电源系统及配套故障。如交流停电、直流掉电、熔断器故障、供电电压过低、接地不良、环境劣化等;二、光纤光缆故障。如光缆线路中断,光缆线路衰耗过大、尾纤断,尾纤弯曲半径过小,法兰盘接头有灰尘及尾纤头脏等;三、电缆故障。如2Mbit/s电缆中断,2Mbit/s接口输入输出端口脱落、松动而造成的接触不良等;四、交换机故障。
2.5设备本身原因
这指的是设备本身损坏或板件配合存在着问题。常见的现象有:一、单盘故障。如线路板、2Mbit/s板、时钟板、交叉板、主控板等器件损坏;二、网管系统故障。包括网管与设备之间的网线故障或系统异常而造成的ECC通道中断、死机等情况。
三、SDH常见传输故障处理方法
常见的传输故障处理方法包括观察分析法、环回测试法、插拔法、替换法、配置数据分析法、更改配置法、仪表测试法和经验处理法。
3.1观察分析法
系统故障时一般会伴有相应的告警信息。通过观察告警灯运行情况,可以及时发现故障。故障发生时,网管上也会记录非常丰富的告警事件和性能数据信息,通过分析这些信息,并结合SDH帧结构中的开销字节和SDH告警原理机制,初步判断故障类型和故障点的位置。
3.2环回测试法
有时观察分析法不能解决问题,如组网,业务以及故障信息相当复杂的情况和无明显告警和性能信息上报的特殊故障情况。系统维护者可以利用网管提供的维护功能进行测试,判断故障点和类型。最常见的方法是环回。它也是定位故障点最有效和常用的方法,它不需要对告警和性能做太深入的分析,缺点是会影响业务,一般在业务量小的时候使用。
3.3插拔法
当发现某种电路板有故障时,系统维护者可以通过插拔一下电路板和外部接口插头的方法,排除因接触不良或处理机异常产生的故障。在插拔时,系统维护者要注意遵循单板插拔的操作规范,以免导致其它问题甚至损坏板件。
3.4替换法
当用插拔法不能解决问题时,可以考虑替换法。替换法就是使用一个正常的备件去替换一个被怀疑工作不正常的元件,从而实现故障的定位和排除。适用于排除传输外部设备的问题,如光纤、中继电缆、交换机、供电设备等。或故障定位到单站后,用于排除单站内单板的问题。
3.5配置数据分析法
配置数据分析法是指通过开销字节配置及状态分析、更改交叉连接等手段对告警进行辅助判断和处理的故障排除方法。在使用该方法时,应尽量选择JO/J1/V3等不影响业务的踪迹字节和其他状态字节。
3.6更改配置法
更改配置法是对时隙、板位、单板参数重新进行配置。该方法适用于没有备板的情况下,初步定位故障类型,并使用其他业务通道或板位暂时恢复业务。该方法操作起来比较复杂,对维护人员的水平要求较高。
3.7仪表测试法
仪表测试法一般用于排除传输设备外部问题以及与其它设备的对接问题。传输设备常用测试仪表包括2Mbit/s误码测试仪、SDH测试仪、光谱分析仪等。
在SDH传输网络的日常维护过程中,我们经常会遇到各种故障现象并伴随着不同的告警指示,有时甚至出现一样的告警指示,貌似同一故障,却由不同的原因导致。这就需要我们了解故障定位的基本原则,明确故障处理的思路,掌握常见的故障处理方法,从而从容应对各种异常现象,提高日常维护的效果。