论文部分内容阅读
摘 要:数字同步网是电信网络的基础支撑网络之一,是各业务网高质量运行的保证。华为BITS(通信楼综合定时供给系统)设备,作为整个通信楼内及通信区域内的专用定时供给发生器,是数字同步网的关键节点,现网应用中有V2与V3两个版本。本文通过对中国移动秦皇岛分公司一则非典型的华为BITSV3设备参考源不可用故障,进行仪表现场测试与问题排除,深入剖析故障原因,总结故障处理经验与预防措施,为华为BITSV3设备的日常维护与故障修复提供借鉴与参考。
关键词:华为BITSV3; 参考源不可用;测试;排除
一、故障现象描述
中国移动秦皇岛分公司华为BITS系统连接关系如图1所示,
(1)秦皇岛分公司机房楼BITSV2设备(二级钟),一方面通过两套PDH系统转接至综合楼,为综合楼BITSV3设备提供输入源;另一方面为SDH网络提供输入源。
(2)秦皇岛分公司综合楼BITSV3设备(三级钟),主要为综合楼不同的MGW/Server核心网交换机提供输入源。
(3)8月23日晚22:11左右,秦皇岛分公司“综合楼BITS V3”设备产生“系统无主用源”、“MITE(最大时间间隔误差)、TIE(时间间隔误差)性能越限”等告警,系统处于自由振荡状态,导致部分基站闪报TF(时钟不同步)告警。
(4)8月24日凌晨2:00左右,通过对“综合楼BITSV3”设备配置“参考源不参与选源控制”,“综合楼BITSV3”设备重新锁定参考源,系统恢复正常,同时基站TF告警消失。
(5)观察两天后,8月26日9:13,“综合楼BITS V3”再次上报“主用源性能越限”告警,导致参考源不可用,并再次进入保持状态。
二、故障原因分析
根据以上故障现象,分析可能的故障原因有:
(1)机房楼BITSV2输出或相关连接件故障;
(2)负责输入源转接的PDH系统或相关连接件故障;
(3)综合楼BITSV3设备LCIM(输入测试板 )板卡或相关连接件故障;
(4)环境温度影响综合楼BITSV3设备SOCU(卫星信号接收及晶体振荡器时钟单元 )板卡工作异常。
三、现场测试与故障排除
(1)因本次故障现象多次反复,且具有一定的随机性,因此计划通过现场仪表测试的方式,逐一排除可能的故障原因,并最终定位故障点。测试前再次确认现网硬件连接情况(如图1所示)。综合楼BITS V3为三级钟配置,2块时钟板均为SOCU,以恒温晶振作为本振。综合楼BITS V3通过PDH通道跟踪上游BITS V2输出的E1信号,并提供时钟信号给下游其他设备。
(2)8月27日凌晨测试BITS V2设备及BITS V3设备输出:
本次测试使用两块仪表,一是XG7230 sync analyzer,其内部配置铷钟,除进行测试外还可以为其他仪表输出基准源;二是JDSU MTS8000,该仪表测试需要外接基准源。
本次仪表测试连接关系如图2所示:XG7230 sync analyzer 的RX,连接一路“综合楼BITS V3”的输入源;TX为JDSU MTS8000提供外接基准源。JDSU MTS8000的RX1连接“综合楼BITS V3”TSOU板的1路输出。
测试结果显示,BITS V2输出的频率偏差小于0.1ppb,可以确认BITS V2及PDH输出正常。BITS V3输出的E1信号与输入源一致,小于0.1ppb。因此可排除第1、第2种故障的可能。由于故障现象暂时没有重现,决定挂表测试一段时间。
(3)8月28日凌晨,为了确定故障点是BITS V2设备还是BITS V3设备,使用两台测试仪表,分别同时测试BITS V3设备输入(BITS V2的输出)和输出。多次测试发现,BITS V3设备的输出存在几次较大的不稳定,而输入一直处于平稳状态。进一步核对性能数据和操作步骤发现,BITS V3设备输出的几次不稳定与人员进入机房时间相符,初步怀疑人员进入机房对设备周边环境产生的影响导致了输出的变化。但由于这种变化没有达到故障重现的程度,只能再次进行持续测试。
(4)8月28日上午9:40,综合楼BITS V3设备再次上报“系统无主用源”、“MITE、TIE性能越限”等告警,故障重现。查看测试仪表确认BITS V3的输出频率发生了变化,仪表监测值为5ppb。BITS V3的输入源测试结果基本不变,为0.1ppb。与机房出入记录核对发现,此次告警与工程人员进入机房时间相符。到机房现场查看发现,BITS V3设备机柜门被打开,同时对面烽火设备机柜门关闭(前期测试时,该机柜门一直处于打开状态),此时在BITS V3设备旁明显感觉到有空调强风。重新恢复前天晚上的两机柜门的位置,BITSV3输出的频率再次发生了变化。仪表监测值为-2ppb,负向变化了7ppb。BITS V3的输入源测试结果基本不变,为0.1ppb。初步判断开关机柜门对BITS V3的输出频率有一定的影响。
(5)综合楼机房现场环境及机架位置如图3所示:
机房专用空调的出风口距离BITS V3约3米,强劲出风直接朝向BITS V3机柜。烽火设备的机柜门打开时,可以恰好挡住风力。经过现场比对,在BITS V3设备机柜门打开的情况下,烽火设备机柜门的打开与关闭,短时间内BITS V3设备周边的温度会产生剧烈的变化。与工程人员核实后,结合设备历史告警、性能发现,BITS V3设备每次上报告警的时间都与工程人员施工时间相符合。
(6)8月29日凌晨,针对白天发生的场景再次进行了测试。还原当时的情况后,故障重现,设备再次上报“系统无主用源”、“MTIE、TIE性能越限”等告警。为了验证开关机柜门对BITS V3輸出的影响,分别对三块SOCU单板(两块现网单板和一块备用板)均进行机柜门开关的测试。验证发现对三块SOCU输出的的频率输出均有影响,三块单板的影响分别为频偏变化5ppb,0.4ppb,0.4ppb。其中一块SOCU对温度的影响表现比较大。 (7)最终确定故障点为:开关机柜门导致空调对综合楼BITS V3设备温度和风速产生变化,引起了综合BITS V3设备晶体输出的频偏发生变化,最终导致输入源超限而系统进入保持。现场解决及预防措施:首先,改变机房空调送风方向,由横向直吹改为上下垂直送风。避免空调对设备直吹,以免设备周边环境温度变化剧烈。其次,将综合楼BITS V3设备由三级钟升级改造为更加稳定的二级钟,时钟板使用SRCU(卫星信号接收及铷振荡器时钟单元)。铷钟板为二级钟的本振。二级钟任何情况下(自由、保持、跟踪、快捕)系统输出信号的频偏均小于16ppb,满足基站50ppb的要求。
四、故障经验总结
(1)BITS V3的性能监测数据TIE、MTIE、TDEV、频率偏差等均使用本振系统输出作为参考,对输入源进行监测。系统输出频率的变化将导致BITS V3监测的输入源的性能监测数据的变化。影响晶振输出频率的主要因素有温度、电压、振动。开关机柜门会影响晶振的工作温度。
(2)通过用仪器测试结果、以及BITS V3相对于输入的性能监测曲线数据可知,开关机柜门导致的温度和风速的变化,引起了BITS V3的晶体输出的频偏发生变化,导致了BITS V3上报性能监测MTIE、TDEV、频率偏差超限告警。而参考源性能超限告警参与了参考源选择控制,这些超限告警导致参考源全部不可用,系统无主用源,BITS V3进入保持状态。
(3)系统保持七天后,进入自由振荡状态。综合楼BITS V3设备为晶体钟,自由振荡的时钟精度无法满足基站的要求,导致基站设备上报TF告警。
五、小结
本则非典型的华为BITSV3设备参考源不可用故障,具有一定的隐蔽性、巧合性和随机性。正好赶上位于前后排的BITSV3设备与烽火设备同时处于施工期,且当BITSV3机柜门打开时,空调送风直对BITSV3设备时,温度的强烈变化才会引起BITSV3设备出现告警。针对这起疑难故障,最终通过现场仪表测试、故障现象还原、原因深入分析,终于准确定位了故障点并使故障得以彻底排除。相信其排查思路、测试方法、处理经验以及预防措施,均可对华为BITSV3设备的日常维护与类似故障处理提供借鉴与参考。
参考文献:
[1]程根兰.数字同步网.人民邮电出版社,2001.
[2]华为数字同步网设备SYNLOCK V3技术手册.
作者简介:李丽红:通信工程师(高级),现任职于中国移动通信集团河北有限公司秦皇岛分公司,网络部傳输班组。是中国移动通信集团公司传输专业(烽火)技术支援专家。主要从事传输网络规划、维护及优化工作。
关键词:华为BITSV3; 参考源不可用;测试;排除
一、故障现象描述
中国移动秦皇岛分公司华为BITS系统连接关系如图1所示,
(1)秦皇岛分公司机房楼BITSV2设备(二级钟),一方面通过两套PDH系统转接至综合楼,为综合楼BITSV3设备提供输入源;另一方面为SDH网络提供输入源。
(2)秦皇岛分公司综合楼BITSV3设备(三级钟),主要为综合楼不同的MGW/Server核心网交换机提供输入源。
(3)8月23日晚22:11左右,秦皇岛分公司“综合楼BITS V3”设备产生“系统无主用源”、“MITE(最大时间间隔误差)、TIE(时间间隔误差)性能越限”等告警,系统处于自由振荡状态,导致部分基站闪报TF(时钟不同步)告警。
(4)8月24日凌晨2:00左右,通过对“综合楼BITSV3”设备配置“参考源不参与选源控制”,“综合楼BITSV3”设备重新锁定参考源,系统恢复正常,同时基站TF告警消失。
(5)观察两天后,8月26日9:13,“综合楼BITS V3”再次上报“主用源性能越限”告警,导致参考源不可用,并再次进入保持状态。
二、故障原因分析
根据以上故障现象,分析可能的故障原因有:
(1)机房楼BITSV2输出或相关连接件故障;
(2)负责输入源转接的PDH系统或相关连接件故障;
(3)综合楼BITSV3设备LCIM(输入测试板 )板卡或相关连接件故障;
(4)环境温度影响综合楼BITSV3设备SOCU(卫星信号接收及晶体振荡器时钟单元 )板卡工作异常。
三、现场测试与故障排除
(1)因本次故障现象多次反复,且具有一定的随机性,因此计划通过现场仪表测试的方式,逐一排除可能的故障原因,并最终定位故障点。测试前再次确认现网硬件连接情况(如图1所示)。综合楼BITS V3为三级钟配置,2块时钟板均为SOCU,以恒温晶振作为本振。综合楼BITS V3通过PDH通道跟踪上游BITS V2输出的E1信号,并提供时钟信号给下游其他设备。
(2)8月27日凌晨测试BITS V2设备及BITS V3设备输出:
本次测试使用两块仪表,一是XG7230 sync analyzer,其内部配置铷钟,除进行测试外还可以为其他仪表输出基准源;二是JDSU MTS8000,该仪表测试需要外接基准源。
本次仪表测试连接关系如图2所示:XG7230 sync analyzer 的RX,连接一路“综合楼BITS V3”的输入源;TX为JDSU MTS8000提供外接基准源。JDSU MTS8000的RX1连接“综合楼BITS V3”TSOU板的1路输出。
测试结果显示,BITS V2输出的频率偏差小于0.1ppb,可以确认BITS V2及PDH输出正常。BITS V3输出的E1信号与输入源一致,小于0.1ppb。因此可排除第1、第2种故障的可能。由于故障现象暂时没有重现,决定挂表测试一段时间。
(3)8月28日凌晨,为了确定故障点是BITS V2设备还是BITS V3设备,使用两台测试仪表,分别同时测试BITS V3设备输入(BITS V2的输出)和输出。多次测试发现,BITS V3设备的输出存在几次较大的不稳定,而输入一直处于平稳状态。进一步核对性能数据和操作步骤发现,BITS V3设备输出的几次不稳定与人员进入机房时间相符,初步怀疑人员进入机房对设备周边环境产生的影响导致了输出的变化。但由于这种变化没有达到故障重现的程度,只能再次进行持续测试。
(4)8月28日上午9:40,综合楼BITS V3设备再次上报“系统无主用源”、“MITE、TIE性能越限”等告警,故障重现。查看测试仪表确认BITS V3的输出频率发生了变化,仪表监测值为5ppb。BITS V3的输入源测试结果基本不变,为0.1ppb。与机房出入记录核对发现,此次告警与工程人员进入机房时间相符。到机房现场查看发现,BITS V3设备机柜门被打开,同时对面烽火设备机柜门关闭(前期测试时,该机柜门一直处于打开状态),此时在BITS V3设备旁明显感觉到有空调强风。重新恢复前天晚上的两机柜门的位置,BITSV3输出的频率再次发生了变化。仪表监测值为-2ppb,负向变化了7ppb。BITS V3的输入源测试结果基本不变,为0.1ppb。初步判断开关机柜门对BITS V3的输出频率有一定的影响。
(5)综合楼机房现场环境及机架位置如图3所示:
机房专用空调的出风口距离BITS V3约3米,强劲出风直接朝向BITS V3机柜。烽火设备的机柜门打开时,可以恰好挡住风力。经过现场比对,在BITS V3设备机柜门打开的情况下,烽火设备机柜门的打开与关闭,短时间内BITS V3设备周边的温度会产生剧烈的变化。与工程人员核实后,结合设备历史告警、性能发现,BITS V3设备每次上报告警的时间都与工程人员施工时间相符合。
(6)8月29日凌晨,针对白天发生的场景再次进行了测试。还原当时的情况后,故障重现,设备再次上报“系统无主用源”、“MTIE、TIE性能越限”等告警。为了验证开关机柜门对BITS V3輸出的影响,分别对三块SOCU单板(两块现网单板和一块备用板)均进行机柜门开关的测试。验证发现对三块SOCU输出的的频率输出均有影响,三块单板的影响分别为频偏变化5ppb,0.4ppb,0.4ppb。其中一块SOCU对温度的影响表现比较大。 (7)最终确定故障点为:开关机柜门导致空调对综合楼BITS V3设备温度和风速产生变化,引起了综合BITS V3设备晶体输出的频偏发生变化,最终导致输入源超限而系统进入保持。现场解决及预防措施:首先,改变机房空调送风方向,由横向直吹改为上下垂直送风。避免空调对设备直吹,以免设备周边环境温度变化剧烈。其次,将综合楼BITS V3设备由三级钟升级改造为更加稳定的二级钟,时钟板使用SRCU(卫星信号接收及铷振荡器时钟单元)。铷钟板为二级钟的本振。二级钟任何情况下(自由、保持、跟踪、快捕)系统输出信号的频偏均小于16ppb,满足基站50ppb的要求。
四、故障经验总结
(1)BITS V3的性能监测数据TIE、MTIE、TDEV、频率偏差等均使用本振系统输出作为参考,对输入源进行监测。系统输出频率的变化将导致BITS V3监测的输入源的性能监测数据的变化。影响晶振输出频率的主要因素有温度、电压、振动。开关机柜门会影响晶振的工作温度。
(2)通过用仪器测试结果、以及BITS V3相对于输入的性能监测曲线数据可知,开关机柜门导致的温度和风速的变化,引起了BITS V3的晶体输出的频偏发生变化,导致了BITS V3上报性能监测MTIE、TDEV、频率偏差超限告警。而参考源性能超限告警参与了参考源选择控制,这些超限告警导致参考源全部不可用,系统无主用源,BITS V3进入保持状态。
(3)系统保持七天后,进入自由振荡状态。综合楼BITS V3设备为晶体钟,自由振荡的时钟精度无法满足基站的要求,导致基站设备上报TF告警。
五、小结
本则非典型的华为BITSV3设备参考源不可用故障,具有一定的隐蔽性、巧合性和随机性。正好赶上位于前后排的BITSV3设备与烽火设备同时处于施工期,且当BITSV3机柜门打开时,空调送风直对BITSV3设备时,温度的强烈变化才会引起BITSV3设备出现告警。针对这起疑难故障,最终通过现场仪表测试、故障现象还原、原因深入分析,终于准确定位了故障点并使故障得以彻底排除。相信其排查思路、测试方法、处理经验以及预防措施,均可对华为BITSV3设备的日常维护与类似故障处理提供借鉴与参考。
参考文献:
[1]程根兰.数字同步网.人民邮电出版社,2001.
[2]华为数字同步网设备SYNLOCK V3技术手册.
作者简介:李丽红:通信工程师(高级),现任职于中国移动通信集团河北有限公司秦皇岛分公司,网络部傳输班组。是中国移动通信集团公司传输专业(烽火)技术支援专家。主要从事传输网络规划、维护及优化工作。