传送网元脱管定位思路及处理方案

来源 :硅谷 | 被引量 : 0次 | 上传用户:congmingwangzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 网元脱管是传送网络维护中经常碰到的问题。虽然有时网元脱管并不会影响传送业务,但当网元脱管时,对于传送网隐患的发现会起到很大阻碍,需要尽快处理,否则有可能发展成为业务中断重大事故。将通过案例及告警分析对网元托管的处理提供思路。
  关键词: 传送网;网元;网管;脱管
  中图分类号:TN915 文献标识码:A 文章编号:1671-7597(2012)1110158-01
  0 前言
  日常问题处理中,脱管问题是网络较多的问题之一,脱管问题原因很多,所需要具备的技能较为综合,包括设备ECC通信原理、网管与设备通信原理等等,有一个清晰的思路,是找到问题症结的关键,本文总结囊括了网元脱管的多种场景,包括各种原因的分析,希望通过本文的学习能够进一步掌握各种脱管问题的分析处理方法。
  1 脱管的定义及网管与设备的通信机制和检测机制
  脱管就是网管无法对网元(主机)进行正常的管理。其现象主要表现为:网元变灰、网元无法登录。
  网管与网关网元会建立socket连接,socket连接检测仅仅是检测网管与网关网元之间的socket连接是否正常,这个检测仅对Qx类型网关网元进行,如果连续3次(每次36秒)未响应,再第4次下发就会置socket中断,上报GNE_CONNECT_FAIL告警;网管与网关网元和非网关网元之间都会进行DCN检测,对网元下发Qx/TL1消息,需要网元进行Qx/TL1响应,如果网元连续2次(60秒一次)未响应,在第3次下发时就会置网元通信中断,上报NE_COMMU_BREAK告警;网管会对网关网元以及非网关网元下发登录命令,如果失败则上报NE_NOT_LOGIN告警。
  2 各种故障定位处理
  2.1 上报NE_NOT_LOGIN告警
  网管登录不上网元,但并不代表网管与网元之前的通信不通,告警是检测后立即上报的;而上报NE_COMMU_BREAK告警表示网元通信不通,同样肯定会伴随NE_NOT_LOGIN告警,该告警至少要2分钟(2×60秒)才会上报;而上报GNE_CONNECT_FAIL
  告警表示网关通信失效,与该网关相关的非网关网元应该有脱管现象,该告警从检测故障起108秒(3×36秒)才会上报;
  NDCNTestTimeoutCount参数,该参数即上面提到的DCN检测的参数,缺省为2,即连续2次(60秒一次)未响应,第三次置网元通信中断。可以在ems.cfg中增加nDCNTestTimeoutCount=2
  这一行,把该参数改大可以缓解网管上网元频繁脱管的现象,但该方法治标不治本,无法根本解决DCN网络差的问题,一般是不建议使用的。
  2.2 单个网元脱管和多个网元脱管
  脱管有单个网元脱管和多个网元脱管,单网元脱管的原因一般有:网元ID冲突、主控故障、光板故障、网元用户不正确、所属网关设置不正确等等;单网元脱管的定位可以参考以下流程图:
  2.3 ECC风暴
  ECC风暴的根本原因是ECC本身不适合大组网导致的,组网过大,路由计算下降,当网络变化时,路由广播信息不断在整个网络中广播,造成路由不断重算,导致路由表收敛时间过长。根本解决ECC风暴的方法是ECC划分,保证性能的情况下要求小于等于64个网元,基本可用的情况下要求小于或等于80个网元。
  2.4 GNE_MGR_LIMIT_OVER告警
  该告警是检测网管侧网关网元所管理的非网关网元数目,超过缺省的64个则会上报该告警,起到提醒用户组网过大避免发生ECC风暴的作用,若现网很难做到64个网元以下,那么处理该告警的方法可以通过修改ems.cfg配置文件,增加GneMgrLim
  ItLevel=64一行,把值修改为比实际非网关网元数量大的值即可,但不建议一味改大,否則该告警的作用将失去意义,建议尽量别超过100;确实不需要该告警作为提醒,也可以对该告警进行过滤处理。
  2.5 网关网元脱管
  网关网元也脱管的情况下,此时需要检查网管到网关之间的DCN是否正常,可以先从网管服务器上ping脱管网关的IP地址,若不通则需要确认网管服务器到网关网元的具体DCN网络的组网,然后逐步排查DCN网络的故障,DCN网络组网种类繁多,具体的定位方法在此就不过多进行赘述。如果能够ping通网关网元,但是还是无法登录,那么可以从服务器上尝试使用navigator工具来登录网元,判断是否为网管问题导致,如果navigator工具也无法登录,可以通过telnet网关网元IP 1400,测试网管与网关之间TCP通信的1400端口是否通,如果不通需要检查服务器操作系统上的防火墙以及杀毒软件等设置是否存在禁用端口的情况。
  2.6 网元互踢脱管
  查询互踢根源,需先定位确认确实存在互踢,且不明互踢源是从哪台网管哪个地方登录过来的,可以切换另一个网元用户登录,然后查询该互踢根源来自何处,查询方法如下:1)对于OSP平台R10之后的版本,可以通过网元操作日志看出,网元操作日志会记录登录其终端的IP地址,查询方法:log-query:
  SCCID,"oplog";2)通过Tei、CON-ON值结合cm-get-lanconi
  nifo信息查找,首先通过:sm-get-curuser查询当前登录的用户,然后通过:sm-get-user:"userid"查询该用户的详细信息,其中字段Tei的信息取高位减去0x11,如0x1f090023,高位0x1f减去0x11等于0x0e,那么其CON-ON的值就是0x0e,Tei后面的0x090023就是网关网元的ID,说明该用户是通过0x090023网关登录过来的;然后到该网关上去查:cm-get-lanconinfo就可以查到与该网关有连接的所有终端信息,根据刚才计算得出的CON-ON位0x0e找出对应的一条记录,那条记录的IP地址即为互踢根源的终端网管。
  2.7 SECU_ALM告警(用户非法登录告警)
  此告警是由于除该网元用户外,存在其他不合法的网元用户或密码尝试登录该设备,处理该告警最简单的方法就是屏蔽。一般产生该告警往往是设备经过升级数据库或者更换主控后导致的,网管根据此前用户自行创建的网元用户去登录设备,设备没有对应的用户导致上报SECU_ALM告警。
  2.8 ECC误码
  频繁脱管或者间歇性脱管的问题,若排除了互踢或ECC风暴等原因外,那么就需要检查是否存在ECC误码了,查看ECC误码使用:cm-get-chanerror:SCCNO,检查相应链路上的ECC通道看是否存在误码,对于命令的输出结果,主要关注LG、NO、CR、AB、UN、MFR这几项是否有值,多次查询值是否在不断增加,特别是脱管发生后值是否有增加,如果是则表示存在ECC误码;需要进一步通过SDH性能检查相关的链路上是否存在误码,处理相应的误码直至问题解决。
  3 结束语
  通过对网元的脱管处理的深入学习与了解,给我们的日常维护工作带来了极大的方便,但是我自知尚有好多不足与不解之处,希望能够得到大家的批评与指导。在以后的工作中把更多的理论与实际的问题结合起来,把我们的工作搞好。
  参考文献:
  [1]《华为U2000脱管问题应急预案》.
  [2]《华为OptiX ECC巨网分割专题》.
  [3]《华为OptiX NG-SDH ECC专题》.
其他文献
摘要:随着城市建设的不断发展,需要不断增设管线及穿越交叉路口及河浜,而在这几个区域内施工往往都是采用地表式水平定向钻施工方法;这种施工方法可以大大减少开挖面,减少施工工期以及减少对周围交通的影响,但采用该种方法施工在每一个管道区段内都会留下两个造斜孔,这造斜孔的封堵密实与否,直接关系到路面上的行车安全;如何能更好的去封堵这个造斜孔,把每一个造斜孔封堵密实是我们每一个建设者的使命;采用水泥:粉煤灰:
期刊
摘要:近年来,城市污水处理应用较为广泛,其在餐饮、环保、医疗、农业、以及交通、建筑等领域都得到了研究应用。在社会经济不断发展以及人们思想意识不断转变的今天,对环境工程的重视以及城市污水处理有效性的分析研究就显得尤其重要。  关键词:环境工程;污水处理;问题;措施  中图分类号:B82文献标识码: A   1、概述  1.1、污水治理的意义  我国人均淡水占有量远远低于世界平均水平,再加上浪费及污染
期刊
摘 要: 通过对CPC、EPC系统在硅钢重卷机组的应用,介绍其工作原理,结合实践经验重点描述系统的调试方法,利用CPC系统解决机组圆盘剪只能对称剪切的缺陷问题。  关键词: CPC;EPC;探头;圆盘剪  0 引言  中冶南方(新余)冷轧新材料技术有限公司是一家以生产中低牌号硅钢为产品的公司,该公司共有两条硅钢重卷机组,完成对退火后的带钢的分切和重卷。机组运行过程中,开卷机通过自动对中系统(CPC
集体主义是从集体出发,坚持集体利益高于个人利益之上的价值观念.青年教师的发展关乎学生的未来以及教育的未来,是教育战线上的主力军,集体主义价值观念的熏陶能让青年教师认
摘 要: 对潜水泵降压启动柜无法启动及启动过程中发生自的故障进行分析,提供一种改造简单、成本便宜、工作稳定的保护启动电路模块,具有较高的实用价值。  关键词: 降压启动;维修改造;运行可靠  范家沟闸站位于江动厂南侧板涵西出口与串场河交汇处,2001年建成,设计流量2m3/s,2台潜水泵的电机装机容量为90KW。主要为市区中心区西部地区即江动厂、公园新村等地势低洼地段防洪、排涝服务。  1 故障成
摘要:随着传统测绘技术向数字化测绘技术转化,当前工程测量的发展可以概括为“六化”和“十六字”,所谓“六化”是:测量内外业作业的一体化,数据获取及其处理的自动化,测量过程控制和系统行为的智能化,测量成果和产品的数字化,测量信息管理的可视化,信息共享和传播的网络化。 “十六字”是:连续、动态、遥测、实时、精确、可靠、快速、简便。   关键词:工程测量;应用;3S   中图分类号: E271 文献标识码
期刊
【摘要】地质勘探是我国基础建设工程的重要程序,在施工之前做好地质勘探工作是非常必要的,能够为工程提供合理的勘察条件和技术帮助,发挥重要作用。本文重点介绍了岩土勘察的目的、存在问题、勘察方法,以供参考。   【关键词】岩土工程;勘察;目的;问题;方法   中图分类号: E271 文献标识码: A      一、岩土勘查的目的   在一般的岩土工程当中,对其勘察的目的就是为了全面了解岩土工程在基础地质
期刊
1941年1月皖南事变爆发后,国共两党关系曾一度紧张。中国共产党为了维护团结抗战的大局,防止国民党继续扩大军事冲突,采取了“有理、有利、有节”的斗争方式,与国民党进行谈判。  “政治上取全国攻击,军事上取守势”  皖南事变后,中共中央一方面指示八路军、新四军在军事上坚决实行自卫;一方面在政治上对国民党顽固势力进行了针锋相对的斗争。  1941年1月14日,中共中央提出“在政治上军事上迅即准备作全面
【摘要】随着科技的不断的发展,继电保护装置也得到了快速的发展,其在变电站中的应用也越来越广泛,其可以有效的保障其变电站的运行,实现继电保护装置的智能化、网络化以及自动化技术发展。在变电运行中,做好继电保护,不断提高继电保护技术水平是极有必要的。下面对变电运行中如何提高继电保护技术水平加以探讨。国论文  【关键词】变电运行;继电保护    中图分类号: TK227 文献标识码: A   前言  近几
期刊