BRAS设备CPU高问题定位及处理

来源 :大东方 | 被引量 : 0次 | 上传用户:fredzhuca
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一、概述
  在现网维护工作中,BRAs设备接口板或主控板CPU高是常见的故障之一。单板CPU高并不一定影响设备业务运行,往往不是导致设备业务故障的根因,因此单板CPU高是只是设备异常运行的表现。在某些情况下cPU使用率可以协助进行网上问题定位。本文以华为ME60为例介绍CPU高问题的定位思路及解决措施。
  二、CPU高问题基本定位思路
  (1)采集单板CPU占用率:
  在CPU高时,第一时间采集单板CPU各任务占用率,以华为设备为例:display cpu-usage
  (2)查看告警、日志信息:
  查看设备告警、历史告警、日志信息,确认CPU高问题发生时间点和触发任务:
  a)单板CPu默认超过80%时设备会上报告警,低于80%会报告警恢复。
  b)设备自启动后,日志会每间隔30分钟记录一次整机CPU和内存信息,用于监控设备CPU/内存运行轨迹,ME60在CPU超过80%会日志记录告警和CPU占用率TOP3的任务。
  (3)报文上送拥塞导致接口板CPU高:
  ①问题原因
  现网约50%的CPU高问题都和大量报文在接口板上送CPU处理有关,导致单板报文大量上送的原因各不相同,如二层环路、恶意攻击、大量用户同时拨号、大量IPOE用户正常ARP学习等都可能导致大量报文上送。
  ②定位和处理方法:
  1、确认CPU高的任务模块,如果SOCK/VPR/FECD/PES/TSD/SPMT等模块CPU占用较高,则可以确认是单板报文上送过多导致。
  2、按照前面所描述的方法查看单板的CP-CAR上送统计,连续查看CP-CAR~送计数确认是哪类报文上送多导致CPU高。
  3、display attack-source-trace slotverbose查看单板攻击溯源记录,确认攻击报文类型和接口、VLAN信息等,需要注意此溯源只有在CP-CAR丢包时可以生成追踪记录,且只支持部分协议类型。
  4、不同的报文上送攻击,需要采用不同的处理方法:
  a)非法报文可以通过部署ACL白名单或调整单板CP-CAR降低CPU。
  b)正常业务报文需要排查攻击源,确认报文上送过多原因,屏蔽二层环路或恶意攻击等。
  c)部分报文通过版本或补丁实现了硬件回包,开启硬件回包功能可以降低CPU。
  (4)大量用户拨号导致主控板和接口板CPU过高
  ①问题原因
  ME60作为多业务接入网关,大量用户频繁或同时拨号会导致ME60设备主控板和接口板CPU过高,在ME60单板复位、整机重启、二层网络环路、AAA认证服务器故障、大量非法用户恶意拨号、CUT大量用户下线等场景下都容易发生CPU过高,如果CPU长期99%且出现用户报故障需要尽快干预处理。
  ②定位和处理方法:
  1、display cpu-usage查看cpu占用率,主控板UCM、AAA、RDS、DACc模块,接口板POXR、POXS、MsE占用率高都是由于用户在大量上线导致。
  2、display aaa online-fail-record brief命令查看用户上线失败原因,初步核实用户无法上线原因,同时观察故障用户规律排查部分二层链路故障的可能。
  3、查找故障用户进行trace跟踪,分析故障用户无法上线原因。
  4、基于上线失败原因定位:
  d)排查AAA服务器是否故障,如果确认AAA服务器通信故障导致用户无法认证,及时修改为不认证不计费优先恢复业务。
  e)排查设备配置是否正确、地址池资源是否充足、用户上线license资源是否充足。
  5、配置PPP惩罚:如果AAA服务器通信正常,但仍然有大量radius认证拒绝导致的上线失败,优先配置ppp上线惩罚机制。
  (5)WEB强推导致接口板CPU高
  ①问题原因
  开启WEB认证、PPP欠费强推、portal广告按时长推送的ME60设备,由于下挂终端QQ/360等程序运行,会导致大量HTTP报文上送ME60接口板CPU处理引起CPU过高。
  ②定位和处理方法:
  1、查看CPU高模块,如果接口板PTAL模块明显过高,则为强推导致CPU过高。
  2、display access-user slot(注意不要加槽位号)确认单板ipoe web用户数,如果有大量ipoe用户在web前域,需要参考ME60补丁说明数开启ipoe用户WEB快回功能(不支持PPP用户的WEB快回)。
  3、如果单板没有ipoe的web用户,则可能为PPP用户开启了web欠费强推导致,确认后需要参考如下预警进行业务改造并开启http上送host-car解决。
  (6)大量DHCP用户反复拨号导致CPU过高
  ①问题原因
  大量IPOE用户DHCP无法获取IP地址时,可能导致主控板CPU过高。典型的案例如委内瑞拉ME60设备在下游友商某二层交换机故障时(只透傳广播报文,单播报文被丢弃),主控板长时间CPu高于90%无法恢复。
  ②定位和处理方法:
  1、查看主控板CPU过高,高的模块为DACC、UCM、AAA等。
  2、display aaa online-fail-reeord查看用户上线失败原因,初步确认用户故障原因,同时注意观察故障用户规律,核实是否为部分二层链路故障导致的问题。
  3、查看ucm消息计数、dhcpacc模块计数、ucm模块offline-reason计数,进一步核实大面积用户故障原因:dhcp服务器无响应、ip allnc fail等等。
  4、查找典型故障用户进行trace跟踪,协助进行问题定位。
  5、对于少量用户的dhcp恶意拨号攻击,或由于二层故障导致的主控板CPU高,可以通过惩罚命令降低设备CPU:
  三、总结
  BRAS接口板CPU高是BRAS设备最常见的故障之一,通过对BRAS单板CPU建立预警阀值,及时发现定位CPU高故障隐患,可以有效的降低宽带用户投诉率,提高客户满意度。
  作者简介
  潘晓峰,男,籍贯:闽侯,1977年2月出生,本科学历,毕业杭州电子工业学院,研究方向:计算机及应用。
  (作者单位:福建联通网建部)
其他文献
摘要:近年来,在我国经济等方面极速发展的时代背景下,致使我國油气长输管道工程的建设步伐不断加快的同时,更是对其施工质量有了进一步的要求。但是,从目前我国油气管道长输管道工程施工建设情况来看,还存在着很多施工风险问题。基于此,为了促使我国油气长输管道施工建设高质量的完成,在接下来的文章中,将重点对我国油气长输管道施工过程中存在的主要风险以及相应的管理措施进行深入的剖析。  关键词:油气长输管道;施工
期刊
摘要:文章首先对电信运营商任务调度的现状进行简要分析,在此基础上对基于数据处理的任务智能调度引擎设计进行论述。期望通过本文的研究能够对任务调度问题的解决有所帮助。  关键词:数据处理;任务调度;智能调度引擎  一、电信运营商任务调度的现状分析  近年来,国内电信市场持续已久的垄断逐步被打破,由此使得一些新运营商加入,在这一前提下,市场竞争变得日益激烈。对于电信运营商而言,他们几乎每天都需要从后台数
期刊
摘要:随着城镇规模的不断扩大,居民对燃气的需求量随之而增加,在城市燃气管道安装中,要注意控制好安装质量,并加强对燃气管道安装工程施工的管理。并且,燃气本身具有一定的危险性,保障管道的安装质量,才能确保人们的用气安全。本文对城市燃气管道安装技术与工程施工管理进行分析。  关键词:城市燃气管道;安装技术;工程施工管理  在人们的生活水平提高以后,其对各类管道的要求也越来越高,这就要求在城市燃气管道的安
期刊
摘要:现代信息技术的快速发展,为社会各行业的发展注入了动力与活力。通过查阅大量文献资料,对电气信息化技术的概念和发展历程进行了总结,对电气信息化技术发展应用进行了分析,从而对电气信息化技术的发展有更多的认识。  关键词:电气信息;发展;应用  一、电气信息化技术概述  电气信息化技术分为三个层次:第一,信息基础技术,包括光子、微电子等相关元器件的制作技术等,为集成电路、计算机等技术的应用提供了前提
期刊
摘要:目前,随着社会的不断进步,经济的飞速发展,生活质量以及社会环境也越来越受到人们的重视。因而,对于建筑设计师们而言,拿出良好的室内环境设计方案至关重要。但是,不可否认的是,当前建筑装饰设计仍然存在严重的问题,本文作者结合多年来的工作经验,首先谈及了建筑装饰设计的原则,进而分析了建筑装饰设计存在的问题,最后提出了解决建筑装饰设计存在问题的对策。  关键词:建筑装饰;原则;设计要点  1引言  建
期刊
摘要:封山育林是林业生态工程建设的重要手段,其成本最低,见效最快,能够对森林生态系统进行优化,完善森林系统的功能,并提高其稳定性。但是,封山育林在林业生态工程建设中的应用还存在许多问题,导致其作用没能充分的发挥出来。本文对封山育林在林业生态工程建设应用中的不足进行分析,并就其应用策略进行探讨。  关键词:封山育林;林业生态工程建设;应用  随着生态问题的日益突出,林业生态建设工作越来越重要。通过封
期刊
摘要:随着科技进步和社会发展,数字技术在各行各业中被大范围的推广和运用,在工业电气自动化中表现尤为突出,其不但能提升测试的精准度,同时还能与电气技术有效融合,兼备全面性、稳定性以及实效性,有着举足轻重的重要地位。本文将围绕数字技术在工业电气自动化中的优点展开分析,并提出具体应用策略。  關键词:数字技术;工业;电气自动化  引言  针对数字技术来讲,这是一项具有时代感的新型技术,具体是指采用信息化
期刊
摘要:社会经济的发展和科学技术的进步,促进了计算机电子信息工程技术的不断发展,并且逐渐被应用到社会的方方面面,不仅为人们的生活创造了便捷,还加快了信息的传播范围和速度,但是如何保障信息安全的问题也应当受到社会的共同关注。  关键词:计算机;电子信息;应用安全  在信息时代到来的社会中,我们无时无刻不在享受着信息技术为生活和学习带来的便利,智能电子设备的使用也为我们的高中学习提供了很大的帮助,数字化
期刊
十八大后,党中央明确提出了坚持走中国特色自主创新道路、实施创新驱动发展的战略,对知识产权转化为生产力提出了更高的要求和期望。知识产权出资是运用知识产权并将其转化为生产力的重要途径之一,可使知识产权的价值能够通过资本化实现。在现代公司企业里,最有价值的资本可能不再是固定资产、现金等物质资本,而是以技术等方式表现的知识资本。尤其在智力密集型的高新技术企业,知识产权可能成为公司的核心竞争力、赖以经营的重
期刊
摘要:科技的发展带来了一系列先进技术的涌现,机械制造行业中先进机器的出现,实现了机械自动化的发展,这在很大程度上提高了生产效率,为人类劳动带来便利。基于此,本文对机械自动化技术在机械制造业中的应用进行了总结,希望能让大家对机械自动化技术有更深入的认识。  關键词:机械;自动化技术;制造业;应用  一、机械自动化技术  机械自动化技术就是在机械制造中充分利用自动化技术,实现对于机械零件自动化的生产制
期刊