论文部分内容阅读
[摘 要] 传输系统的性能对整个通信网的通信质量起着至关重要的作用。误码是影响SDH传输网传输性能的重要原因之一。本文针对SDH的特点,主要讲述了SDH误码产生的原因及故障处理方法,结合案例,对故障的发现、定位处理进行逐步说明。
[关键词] SDH 开销字节 性能门限 误码
一、背景知识
误码是指经接收、判决、再生后,数字码流中的某些比特发生了差错,使传输的信息质量产生损伤。误码是传输系统的一大危害,轻则使系统稳定性下降,重则导致传输中断(10-3以上)。
1.1误码分段
光同步传输设备中按分段分层的思想对误码进行全面系统的检测。具体有B1再生段误码、B2复用段误码、B3高阶通道误码、V5低阶通道误码。它们之间的关系可以用图1表示。
图1误码检测关系及检测位置
图中RST、MST、HPT、LPT分别表示再生段终端、复用段终端、高阶通道终端和低阶通道终端。B1、B2、B3以及V5误码分别在这些终端间进行检测。如果只是低阶通道有误码,则高阶通道、复用段和再生段将检测不到该误码;如果再生段有误码,则将导致复用段、高阶通道、低阶通道出现误码。
一般来说,有高阶误码则会有低阶误码。例如:如果有B1误码,一般就会有B2、B3和V5误码;反之,有低阶误码则不一定有高阶误码。如有V5误码,则不一定会有B3、B2和B1误码。
由于高阶误码会导致低阶误码,因此我们在处理误码问题时,应按照先高阶后低阶的顺序来进行处理。同时线路误码在线路板终结,一般限于两块光板之间,不会穿通到本站的其他线路板(请注意,HPBBE有所不同,当通道为穿通模式时,HPBBE会随着业务向下游站光板传递。)。但支路误码跟着业务走,这是因为线路板和支路板对开销的处理特点决定的。
1.2误码性能事件
光同步传输系统本端检测到误码时,除本端上报误码性能或告警事件外,还将误码检测情况通过开销字节通知对端。根据本端和对端上报的这些性能和告警事件,可以定位是哪一段通道或哪一个方向出现误码。表1给出了与误码相关的性能和告警事件列表。
由表1可以看出,若本端上报BBE性能事件,则表示本端接收侧检测到了误码,远端发和本端收之间的通道存在问题。若本端上报FEBBE性能事件,则表示远端接收侧检测到了误码,本端发和远端收之间的通道存在问题。当误码较大。突破预设的性能门限时,将上报告警事件。
1.3误码性能检测的机理
各种误码的检测点,以及其与远端误码指示的对应关系。表2总结了指示各种误码的开销字节。
二、故障原因及处理方法
2.1误码的常见原因
1.外部原因:①接收光功率过低、过高,色散过大;②电缆性能劣化;③环境温度过高,导致设备散热不良;④设备接地不好;⑤,设备附近有强干扰源。
2.设备原因:①线路板接收侧信号衰减过大,对端发送电路故障,本端接收电路故障;②時钟单元同步性能不好;③交叉板与线路板、支路板配合不好;④支路板故障;⑤风扇异常,导致设备散热不良。
3.数据配置:时钟配置错误。
2.2误码故障处理方法及步骤
通常有三大处理方法:1、告警性能分析法,2、逐段环回法,3、互换、替换法。
具体处理步骤为:
第一步:找到误码的源头。如果线路上某处出现误码,经常会造成环上很多个站点都有低阶误码,所以,上报误码性能事件的站点不一定就是故障站点。因此,处理误码问题的第一步就是要找到误码的源头。我们要牢记先高阶、后低阶的原则,通过分析告警性能(利用一些误码告警性能的对告关系)或者通过逐段环回,找到最高阶误码的源头。
第二步:排除线路误码,排除外部原因。如果存在线路误码,则先排除线路误码,这也是遵循先处理高阶、后处理低阶的原则。要注意先排除外部原因如接地不好、工作温度过高、线路板接收光功率过低或过高等问题;接着观察线路板误码情况,若某站所有线路板都有误码,则可能是该站时钟板问题,更换时钟板;若只是某块线路板报误码,则可能是本站线路板问题,也可能是对端站或光纤的问题。定位出故障单板后,可通过更换单板解决。若允许,可使用环回法定位故障。包括软环回例如VC4通道的内、外软环回和硬环回涉及例如DDF(数字配线)架的电口内外、硬环回及通过尾纤进行的光口的内、外硬环回。
第三步:分析支路误码性能事件,排除支路误码。若只有支路误码,则可能是本站交叉板或支路板有问题。更换支路板或交叉板。
三、典型案例分析总结
3.1.光路故障导致的误码
1.组网情况。某局采用华为技术有限公司OptiX2500+SDH光传输系统组建本地传输网,由6个站点组成一个两纤双向复用段保护环,网管终端设在1站,网络结构如图2所示,其中4站带两个扩展子架。各站之间都有业务。调测时5站的东、西向光缆未到位,因此整个网络相当于一条链。
图2系统组网图
2.故障现象。在1站登录光缆已连通的各站,然后查询各站的性能数据,发现3站、4站、7站的数据查询上不来,其它的操作也无效。怀疑是路由不通,再次登录各站,发现上述三站不可见,路由果然已经不通。刚才能从1站登录到各站,说明原来的路由是好的。几分钟后,发现上述三站又已经可以登录了。一开始以为是2站或3站有人误操作造成,但在接着的一段时间里,此现象再次出现。与2站及3站联系,确认无人误动,可见问题并非偶然。
3.故障分析及排除。因为3站及其下游的各站都登录不上,问题很有可能出在2站或3站。通过对上报的性能事件分析,1)查询2站及3站光板的自环状态,发现光板并没自环。2)怀疑#2站主控板的ECC通道堵塞,将主控板复位,不奏效。3)查询2站的告警,东向线路板S16有R_LOS、R_LOF紧急告警,而且是一会儿出现,一会儿消失。初步判定是光路有问题;但问题不会就是路由不通这么简单,于是考虑到通过环回测试来定位故障,步骤如下:在1站挂2M误码仪,测到3站的业务(3站已经在DDF架硬件环回),发现有大量误码,有时上报AIS。测1站到4站的业务亦然。由以上现象可以看出,ECC路由不通是由光路误码太大引起的,光路时通时断很可能是光路衰减过大,造成光板接收功率过小,处于临界值附近。而光缆和尾纤本身有问题的可能性不大,很有可能的是站点跳纤接头松动或跳线接头脏。分别到2站和3站检查跳线接头连接情况,并清洗法兰盘接头,业务正常,而路由不通问题也不再出现。
3.2线路板故障导致的误码
1.组网情况。四个站组成的一条无保护链,1站为网管中心站,集中型业务,即每个站均与1站有2M业务。组网示意图见图1。
2.故障现象。1站2M支路板有LPBBE误码,3站东向光板有RSBBE、MSBBE、HPBBE误码,4站西向光板有MSFEBBE、HPFEBBE误码,4站2M支路板有LPFEBBE误码。
3.故障分析及排除。通过对上报的性能事件分析,可判断为3站东向光板收有问题或4站西向光板发有问题。到达3号站,通过尾纤自环3站的东向光板,3站东向光板误码和1站2M支路板误码消失,说明是4站西向光板问题。到达4站,更换西向光板,误码问题解决。
3.3时钟板故障导致的误码问题
1.组网情况。四个站组成的一个复用段保护环,1站为网管中心站,每个站均与1站有2M业务。
2、故障现象。1号站、3号站、4号站相应的2M业务通道报LPBBE、LPFEBBE误码;2号站东向板、3号站东西向光板、4号站西向光板报大量RSBBE、MSBBE、HPBBE以及MSFEBBE、HPFEBBE误码,一些光板还存在大量指针调整。
3、故障分析及排除。从误码性能事件分析,3号站的时钟单元故障。到达3号站,更换交叉板,误码消失,故障排除。
四、总结
在平时维护工作经常遇到误码问题,由于告警信息的多样性,加大了维护人员对故障定位及处理的难度,这就要求维护人员不断提高自身的业务水平和处理故障的能力。同时,要全盘考虑,不放过每一个可能引起误码的细节,灵活运用各种判断分析方法,准确锁定故障位置,及时排除故障。■
[关键词] SDH 开销字节 性能门限 误码
一、背景知识
误码是指经接收、判决、再生后,数字码流中的某些比特发生了差错,使传输的信息质量产生损伤。误码是传输系统的一大危害,轻则使系统稳定性下降,重则导致传输中断(10-3以上)。
1.1误码分段
光同步传输设备中按分段分层的思想对误码进行全面系统的检测。具体有B1再生段误码、B2复用段误码、B3高阶通道误码、V5低阶通道误码。它们之间的关系可以用图1表示。
图1误码检测关系及检测位置
图中RST、MST、HPT、LPT分别表示再生段终端、复用段终端、高阶通道终端和低阶通道终端。B1、B2、B3以及V5误码分别在这些终端间进行检测。如果只是低阶通道有误码,则高阶通道、复用段和再生段将检测不到该误码;如果再生段有误码,则将导致复用段、高阶通道、低阶通道出现误码。
一般来说,有高阶误码则会有低阶误码。例如:如果有B1误码,一般就会有B2、B3和V5误码;反之,有低阶误码则不一定有高阶误码。如有V5误码,则不一定会有B3、B2和B1误码。
由于高阶误码会导致低阶误码,因此我们在处理误码问题时,应按照先高阶后低阶的顺序来进行处理。同时线路误码在线路板终结,一般限于两块光板之间,不会穿通到本站的其他线路板(请注意,HPBBE有所不同,当通道为穿通模式时,HPBBE会随着业务向下游站光板传递。)。但支路误码跟着业务走,这是因为线路板和支路板对开销的处理特点决定的。
1.2误码性能事件
光同步传输系统本端检测到误码时,除本端上报误码性能或告警事件外,还将误码检测情况通过开销字节通知对端。根据本端和对端上报的这些性能和告警事件,可以定位是哪一段通道或哪一个方向出现误码。表1给出了与误码相关的性能和告警事件列表。
由表1可以看出,若本端上报BBE性能事件,则表示本端接收侧检测到了误码,远端发和本端收之间的通道存在问题。若本端上报FEBBE性能事件,则表示远端接收侧检测到了误码,本端发和远端收之间的通道存在问题。当误码较大。突破预设的性能门限时,将上报告警事件。
1.3误码性能检测的机理
各种误码的检测点,以及其与远端误码指示的对应关系。表2总结了指示各种误码的开销字节。
二、故障原因及处理方法
2.1误码的常见原因
1.外部原因:①接收光功率过低、过高,色散过大;②电缆性能劣化;③环境温度过高,导致设备散热不良;④设备接地不好;⑤,设备附近有强干扰源。
2.设备原因:①线路板接收侧信号衰减过大,对端发送电路故障,本端接收电路故障;②時钟单元同步性能不好;③交叉板与线路板、支路板配合不好;④支路板故障;⑤风扇异常,导致设备散热不良。
3.数据配置:时钟配置错误。
2.2误码故障处理方法及步骤
通常有三大处理方法:1、告警性能分析法,2、逐段环回法,3、互换、替换法。
具体处理步骤为:
第一步:找到误码的源头。如果线路上某处出现误码,经常会造成环上很多个站点都有低阶误码,所以,上报误码性能事件的站点不一定就是故障站点。因此,处理误码问题的第一步就是要找到误码的源头。我们要牢记先高阶、后低阶的原则,通过分析告警性能(利用一些误码告警性能的对告关系)或者通过逐段环回,找到最高阶误码的源头。
第二步:排除线路误码,排除外部原因。如果存在线路误码,则先排除线路误码,这也是遵循先处理高阶、后处理低阶的原则。要注意先排除外部原因如接地不好、工作温度过高、线路板接收光功率过低或过高等问题;接着观察线路板误码情况,若某站所有线路板都有误码,则可能是该站时钟板问题,更换时钟板;若只是某块线路板报误码,则可能是本站线路板问题,也可能是对端站或光纤的问题。定位出故障单板后,可通过更换单板解决。若允许,可使用环回法定位故障。包括软环回例如VC4通道的内、外软环回和硬环回涉及例如DDF(数字配线)架的电口内外、硬环回及通过尾纤进行的光口的内、外硬环回。
第三步:分析支路误码性能事件,排除支路误码。若只有支路误码,则可能是本站交叉板或支路板有问题。更换支路板或交叉板。
三、典型案例分析总结
3.1.光路故障导致的误码
1.组网情况。某局采用华为技术有限公司OptiX2500+SDH光传输系统组建本地传输网,由6个站点组成一个两纤双向复用段保护环,网管终端设在1站,网络结构如图2所示,其中4站带两个扩展子架。各站之间都有业务。调测时5站的东、西向光缆未到位,因此整个网络相当于一条链。
图2系统组网图
2.故障现象。在1站登录光缆已连通的各站,然后查询各站的性能数据,发现3站、4站、7站的数据查询上不来,其它的操作也无效。怀疑是路由不通,再次登录各站,发现上述三站不可见,路由果然已经不通。刚才能从1站登录到各站,说明原来的路由是好的。几分钟后,发现上述三站又已经可以登录了。一开始以为是2站或3站有人误操作造成,但在接着的一段时间里,此现象再次出现。与2站及3站联系,确认无人误动,可见问题并非偶然。
3.故障分析及排除。因为3站及其下游的各站都登录不上,问题很有可能出在2站或3站。通过对上报的性能事件分析,1)查询2站及3站光板的自环状态,发现光板并没自环。2)怀疑#2站主控板的ECC通道堵塞,将主控板复位,不奏效。3)查询2站的告警,东向线路板S16有R_LOS、R_LOF紧急告警,而且是一会儿出现,一会儿消失。初步判定是光路有问题;但问题不会就是路由不通这么简单,于是考虑到通过环回测试来定位故障,步骤如下:在1站挂2M误码仪,测到3站的业务(3站已经在DDF架硬件环回),发现有大量误码,有时上报AIS。测1站到4站的业务亦然。由以上现象可以看出,ECC路由不通是由光路误码太大引起的,光路时通时断很可能是光路衰减过大,造成光板接收功率过小,处于临界值附近。而光缆和尾纤本身有问题的可能性不大,很有可能的是站点跳纤接头松动或跳线接头脏。分别到2站和3站检查跳线接头连接情况,并清洗法兰盘接头,业务正常,而路由不通问题也不再出现。
3.2线路板故障导致的误码
1.组网情况。四个站组成的一条无保护链,1站为网管中心站,集中型业务,即每个站均与1站有2M业务。组网示意图见图1。
2.故障现象。1站2M支路板有LPBBE误码,3站东向光板有RSBBE、MSBBE、HPBBE误码,4站西向光板有MSFEBBE、HPFEBBE误码,4站2M支路板有LPFEBBE误码。
3.故障分析及排除。通过对上报的性能事件分析,可判断为3站东向光板收有问题或4站西向光板发有问题。到达3号站,通过尾纤自环3站的东向光板,3站东向光板误码和1站2M支路板误码消失,说明是4站西向光板问题。到达4站,更换西向光板,误码问题解决。
3.3时钟板故障导致的误码问题
1.组网情况。四个站组成的一个复用段保护环,1站为网管中心站,每个站均与1站有2M业务。
2、故障现象。1号站、3号站、4号站相应的2M业务通道报LPBBE、LPFEBBE误码;2号站东向板、3号站东西向光板、4号站西向光板报大量RSBBE、MSBBE、HPBBE以及MSFEBBE、HPFEBBE误码,一些光板还存在大量指针调整。
3、故障分析及排除。从误码性能事件分析,3号站的时钟单元故障。到达3号站,更换交叉板,误码消失,故障排除。
四、总结
在平时维护工作经常遇到误码问题,由于告警信息的多样性,加大了维护人员对故障定位及处理的难度,这就要求维护人员不断提高自身的业务水平和处理故障的能力。同时,要全盘考虑,不放过每一个可能引起误码的细节,灵活运用各种判断分析方法,准确锁定故障位置,及时排除故障。■