论文部分内容阅读
一、概述
在现网维护工作中,BRAs设备接口板或主控板CPU高是常见的故障之一。单板CPU高并不一定影响设备业务运行,往往不是导致设备业务故障的根因,因此单板CPU高是只是设备异常运行的表现。在某些情况下cPU使用率可以协助进行网上问题定位。本文以华为ME60为例介绍CPU高问题的定位思路及解决措施。
二、CPU高问题基本定位思路
(1)采集单板CPU占用率:
在CPU高时,第一时间采集单板CPU各任务占用率,以华为设备为例:display cpu-usage。
(2)查看告警、日志信息:
查看设备告警、历史告警、日志信息,确认CPU高问题发生时间点和触发任务:
a)单板CPu默认超过80%时设备会上报告警,低于80%会报告警恢复。
b)设备自启动后,日志会每间隔30分钟记录一次整机CPU和内存信息,用于监控设备CPU/内存运行轨迹,ME60在CPU超过80%会日志记录告警和CPU占用率TOP3的任务。
(3)报文上送拥塞导致接口板CPU高:
①问题原因
现网约50%的CPU高问题都和大量报文在接口板上送CPU处理有关,导致单板报文大量上送的原因各不相同,如二层环路、恶意攻击、大量用户同时拨号、大量IPOE用户正常ARP学习等都可能导致大量报文上送。
②定位和处理方法:
1、确认CPU高的任务模块,如果SOCK/VPR/FECD/PES/TSD/SPMT等模块CPU占用较高,则可以确认是单板报文上送过多导致。
2、按照前面所描述的方法查看单板的CP-CAR上送统计,连续查看CP-CAR~送计数确认是哪类报文上送多导致CPU高。
3、display attack-source-trace slotverbose查看单板攻击溯源记录,确认攻击报文类型和接口、VLAN信息等,需要注意此溯源只有在CP-CAR丢包时可以生成追踪记录,且只支持部分协议类型。
4、不同的报文上送攻击,需要采用不同的处理方法:
a)非法报文可以通过部署ACL白名单或调整单板CP-CAR降低CPU。
b)正常业务报文需要排查攻击源,确认报文上送过多原因,屏蔽二层环路或恶意攻击等。
c)部分报文通过版本或补丁实现了硬件回包,开启硬件回包功能可以降低CPU。
(4)大量用户拨号导致主控板和接口板CPU过高
①问题原因
ME60作为多业务接入网关,大量用户频繁或同时拨号会导致ME60设备主控板和接口板CPU过高,在ME60单板复位、整机重启、二层网络环路、AAA认证服务器故障、大量非法用户恶意拨号、CUT大量用户下线等场景下都容易发生CPU过高,如果CPU长期99%且出现用户报故障需要尽快干预处理。
②定位和处理方法:
1、display cpu-usage查看cpu占用率,主控板UCM、AAA、RDS、DACc模块,接口板POXR、POXS、MsE占用率高都是由于用户在大量上线导致。
2、display aaa online-fail-record brief命令查看用户上线失败原因,初步核实用户无法上线原因,同时观察故障用户规律排查部分二层链路故障的可能。
3、查找故障用户进行trace跟踪,分析故障用户无法上线原因。
4、基于上线失败原因定位:
d)排查AAA服务器是否故障,如果确认AAA服务器通信故障导致用户无法认证,及时修改为不认证不计费优先恢复业务。
e)排查设备配置是否正确、地址池资源是否充足、用户上线license资源是否充足。
5、配置PPP惩罚:如果AAA服务器通信正常,但仍然有大量radius认证拒绝导致的上线失败,优先配置ppp上线惩罚机制。
(5)WEB强推导致接口板CPU高
①问题原因
开启WEB认证、PPP欠费强推、portal广告按时长推送的ME60设备,由于下挂终端QQ/360等程序运行,会导致大量HTTP报文上送ME60接口板CPU处理引起CPU过高。
②定位和处理方法:
1、查看CPU高模块,如果接口板PTAL模块明显过高,则为强推导致CPU过高。
2、display access-user slot(注意不要加槽位号)确认单板ipoe web用户数,如果有大量ipoe用户在web前域,需要参考ME60补丁说明数开启ipoe用户WEB快回功能(不支持PPP用户的WEB快回)。
3、如果单板没有ipoe的web用户,则可能为PPP用户开启了web欠费强推导致,确认后需要参考如下预警进行业务改造并开启http上送host-car解决。
(6)大量DHCP用户反复拨号导致CPU过高
①问题原因
大量IPOE用户DHCP无法获取IP地址时,可能导致主控板CPU过高。典型的案例如委内瑞拉ME60设备在下游友商某二层交换机故障时(只透傳广播报文,单播报文被丢弃),主控板长时间CPu高于90%无法恢复。
②定位和处理方法:
1、查看主控板CPU过高,高的模块为DACC、UCM、AAA等。
2、display aaa online-fail-reeord查看用户上线失败原因,初步确认用户故障原因,同时注意观察故障用户规律,核实是否为部分二层链路故障导致的问题。
3、查看ucm消息计数、dhcpacc模块计数、ucm模块offline-reason计数,进一步核实大面积用户故障原因:dhcp服务器无响应、ip allnc fail等等。
4、查找典型故障用户进行trace跟踪,协助进行问题定位。
5、对于少量用户的dhcp恶意拨号攻击,或由于二层故障导致的主控板CPU高,可以通过惩罚命令降低设备CPU:
三、总结
BRAS接口板CPU高是BRAS设备最常见的故障之一,通过对BRAS单板CPU建立预警阀值,及时发现定位CPU高故障隐患,可以有效的降低宽带用户投诉率,提高客户满意度。
作者简介
潘晓峰,男,籍贯:闽侯,1977年2月出生,本科学历,毕业杭州电子工业学院,研究方向:计算机及应用。
(作者单位:福建联通网建部)
在现网维护工作中,BRAs设备接口板或主控板CPU高是常见的故障之一。单板CPU高并不一定影响设备业务运行,往往不是导致设备业务故障的根因,因此单板CPU高是只是设备异常运行的表现。在某些情况下cPU使用率可以协助进行网上问题定位。本文以华为ME60为例介绍CPU高问题的定位思路及解决措施。
二、CPU高问题基本定位思路
(1)采集单板CPU占用率:
在CPU高时,第一时间采集单板CPU各任务占用率,以华为设备为例:display cpu-usage
(2)查看告警、日志信息:
查看设备告警、历史告警、日志信息,确认CPU高问题发生时间点和触发任务:
a)单板CPu默认超过80%时设备会上报告警,低于80%会报告警恢复。
b)设备自启动后,日志会每间隔30分钟记录一次整机CPU和内存信息,用于监控设备CPU/内存运行轨迹,ME60在CPU超过80%会日志记录告警和CPU占用率TOP3的任务。
(3)报文上送拥塞导致接口板CPU高:
①问题原因
现网约50%的CPU高问题都和大量报文在接口板上送CPU处理有关,导致单板报文大量上送的原因各不相同,如二层环路、恶意攻击、大量用户同时拨号、大量IPOE用户正常ARP学习等都可能导致大量报文上送。
②定位和处理方法:
1、确认CPU高的任务模块,如果SOCK/VPR/FECD/PES/TSD/SPMT等模块CPU占用较高,则可以确认是单板报文上送过多导致。
2、按照前面所描述的方法查看单板的CP-CAR上送统计,连续查看CP-CAR~送计数确认是哪类报文上送多导致CPU高。
3、display attack-source-trace slot
4、不同的报文上送攻击,需要采用不同的处理方法:
a)非法报文可以通过部署ACL白名单或调整单板CP-CAR降低CPU。
b)正常业务报文需要排查攻击源,确认报文上送过多原因,屏蔽二层环路或恶意攻击等。
c)部分报文通过版本或补丁实现了硬件回包,开启硬件回包功能可以降低CPU。
(4)大量用户拨号导致主控板和接口板CPU过高
①问题原因
ME60作为多业务接入网关,大量用户频繁或同时拨号会导致ME60设备主控板和接口板CPU过高,在ME60单板复位、整机重启、二层网络环路、AAA认证服务器故障、大量非法用户恶意拨号、CUT大量用户下线等场景下都容易发生CPU过高,如果CPU长期99%且出现用户报故障需要尽快干预处理。
②定位和处理方法:
1、display cpu-usage查看cpu占用率,主控板UCM、AAA、RDS、DACc模块,接口板POXR、POXS、MsE占用率高都是由于用户在大量上线导致。
2、display aaa online-fail-record brief命令查看用户上线失败原因,初步核实用户无法上线原因,同时观察故障用户规律排查部分二层链路故障的可能。
3、查找故障用户进行trace跟踪,分析故障用户无法上线原因。
4、基于上线失败原因定位:
d)排查AAA服务器是否故障,如果确认AAA服务器通信故障导致用户无法认证,及时修改为不认证不计费优先恢复业务。
e)排查设备配置是否正确、地址池资源是否充足、用户上线license资源是否充足。
5、配置PPP惩罚:如果AAA服务器通信正常,但仍然有大量radius认证拒绝导致的上线失败,优先配置ppp上线惩罚机制。
(5)WEB强推导致接口板CPU高
①问题原因
开启WEB认证、PPP欠费强推、portal广告按时长推送的ME60设备,由于下挂终端QQ/360等程序运行,会导致大量HTTP报文上送ME60接口板CPU处理引起CPU过高。
②定位和处理方法:
1、查看CPU高模块,如果接口板PTAL模块明显过高,则为强推导致CPU过高。
2、display access-user slot(注意不要加槽位号)确认单板ipoe web用户数,如果有大量ipoe用户在web前域,需要参考ME60补丁说明数开启ipoe用户WEB快回功能(不支持PPP用户的WEB快回)。
3、如果单板没有ipoe的web用户,则可能为PPP用户开启了web欠费强推导致,确认后需要参考如下预警进行业务改造并开启http上送host-car解决。
(6)大量DHCP用户反复拨号导致CPU过高
①问题原因
大量IPOE用户DHCP无法获取IP地址时,可能导致主控板CPU过高。典型的案例如委内瑞拉ME60设备在下游友商某二层交换机故障时(只透傳广播报文,单播报文被丢弃),主控板长时间CPu高于90%无法恢复。
②定位和处理方法:
1、查看主控板CPU过高,高的模块为DACC、UCM、AAA等。
2、display aaa online-fail-reeord查看用户上线失败原因,初步确认用户故障原因,同时注意观察故障用户规律,核实是否为部分二层链路故障导致的问题。
3、查看ucm消息计数、dhcpacc模块计数、ucm模块offline-reason计数,进一步核实大面积用户故障原因:dhcp服务器无响应、ip allnc fail等等。
4、查找典型故障用户进行trace跟踪,协助进行问题定位。
5、对于少量用户的dhcp恶意拨号攻击,或由于二层故障导致的主控板CPU高,可以通过惩罚命令降低设备CPU:
三、总结
BRAS接口板CPU高是BRAS设备最常见的故障之一,通过对BRAS单板CPU建立预警阀值,及时发现定位CPU高故障隐患,可以有效的降低宽带用户投诉率,提高客户满意度。
作者简介
潘晓峰,男,籍贯:闽侯,1977年2月出生,本科学历,毕业杭州电子工业学院,研究方向:计算机及应用。
(作者单位:福建联通网建部)