论文部分内容阅读
【摘要】 文章根据大型GSM网管对性能异常发现的要求,结合NGOSS提出的基于策略的管理的理念,提出基于策略的网络性能异常的自动方法,并给出模块结构设计和主要流程。该方法减轻了手工工作量,提高了异常发现的准确性和效率。
【关键词】GSM策略性能管理异常分析
一、概述
GSM网管系统需要采集GSM网络中的网元的性能、资源、告警信息。而其中所需采集的性能数据量最大:一个中等省份的运营商网络将包括2-3万个左右的小区,50个以上的MSC,每种类型的网元平均每小时(最小时间粒度可达5分钟)将采集平均5个以上的性能测量报告,在这些数据的基础上用户会提出100个以上的省级运维分析报表来满足日常的运维分析要求,面对综合网管中大量的数据分析工作,在目前的网管系统中,普遍采用的一种定时形成固定报表进行人工分析的模式。在日常运维分析的基础上,运维人员希望通过对性能数据的分析发现告警监控发现不了的故障。由于这种潜在的故障历时时间短,所需查看的网元范围不确定,涉及的报表数量多,报表粒度组合多,通过人工查看的方式往往难以发现。有鉴于此,提出一种基于策略的网络性能自动异常分析方法。相对于基于固定报表的人工分析模式,基于策略的自动异常分析提供策略编辑器允许运维人员定制网络性能数据的自动分析策略,包括可定义搜索路径,定义被搜索的网元范围,被搜索的时间范围等条件,通过定义的策略,可以灵活动态的适应各种网络分析的场景,可以定时自动对海量的网络性能数据进行搜索和异常点发现,并根据定义的策略输出自动分析报告,方便运维人员全面,快速地发现隐藏在网络性能数据中的网络故障,辅助用户进行排障和性能调优。
二、基于策略的自动分析方法
1、NGOSS策略域的模型
NGOSS基于策略的管理被认为是一种针对分布式系统的良好的管理机制。其主要概念包括:策略(Policy):策略是一组规则,这些规则是用来管理和控制一个或者更多的被管理的目标的状态和状态的转变。策略规则(Policy Rule):策略规则如同一个智能的数据容器。其中的数据定义了如何在一个被管环境中使用Policy Rule以及一些用来规定的这些应用Policy Rule的被管实体间的相互作用的行为规范。策略规则包括的数据有四种类型:定义策略规则的行为和语义以及它所影响的系统其他部分的行为;一组事件,这些事件是用来追踪Policy Rule的条件语句的值;Policy Rule所有的条件;PolicyRule的所有行为。策略触发(Policy Event):是一个重要事件的发生,能够被用来追踪PolicyRule中的PolicyCondition或Policy Condition子句的值。策略条件(Policy Condition):一个策略条件子句,是一个单独的策略条件,它被当作一个Policy Rule所聚集的最小不可分的个体来对待。它用一个布尔表达式表示,定义了必要的状态以及(或)定义是否由同样Policy Rule的行为来展现的先决条件。当策略条件子句和Policy Rule相关联时,它的值置为TRUE。策略执行(Policy Action):策略执行子句是一个单独的Policy Action,被当作一个Policy Rule所聚集的不可分的最小个体来对待。它代表了Policy Condition子句值为TRUE的时候必须要执行的行为。图1所示即为这个策略的作用关系。当策略满足条件时,定义的行为开始执行。
2、基于策略的自动分析方法
自动分析策略分为两种类型:一是面向网元类型的分析策略:按照网元类型进行搜索的策略。二是面向网元的分析策略:按照具体网元进行搜索的策略。下文是一个分析策略实例:当对MSC的话务量进行分析时,可能首先考察MSC的TCH话务量,如果这个指标出现了异常(偏高或者偏低),下一步可能会对跟该MSC相关的所有中继群的话务量和试呼次数进行分析,同时对该MSC下所有的BSC的TCH话务量进行分析,查找其中的异常信息(某些中继群的异常或者某些BSC的指标异常会导致MSC的话务量异常),如果BSC的TCH话务量发现异常,又可能会对BSC下的所有BTS的TCH话务量进行分析,发现其中的异常。不难看出,以上例子中所描述的搜索路径实际上是网管分析人员日常进行异常查找和追踪的路径,如果手工进行,会在大量的数据和网元的关系中迷失方向,现在仅仅需要定义一个抽象的搜索路径,系统会自动定位相关网元,进行自动的异常识别。
(1)网络性能异常点判别方法。第一,表达式求值的方式通过为指标指定一个表达式,如果指标的值满足这个表达式,就说明发生了异常,否则就是正常的。表达式求值法适合于判别有固定阈值的指标,比如掉话率,所有小区要求掉话率必须小于某一个固定阈值。第二,自动阈值发现方式是指针对阈值不固定的指标,如话务量,试呼次数等。由于每个网元所处的地理位置不同,网络拓扑联接关系不同,导致每个网元的话务模型都会不同。需要根据每一个特定网元,特定的时间序列,特定的性能指标进行阈值发现,这样才能真正发现特定网元的性能异常。一是,阈值发现的维度粒度选择。由于不同维度粒度条件下的性能指标可能不具备可比性,所以在进行阈值发现时,需要选定相应的维度和粒度。阈值发现的维度及粒度包括:时间维度包括:15分钟、小时、周中时(如每周一10点)、天中时(如每天10点)、忙时、天、月中天、周、月、特定事件等;网元维度包括:小区、BSC、中继群、MSC、城市、地区、省、LAC、网元组(热点小区、热点中继)等;业务维度包括:互联互通中继群、目的码分类、流向分类等。二是,阈值发现算法。当选定了特定的粒度后,性能指标的波动将剔除地域因素,不同时间序列等因素,性能指标将形成一个根据时间序列波动的曲线。可以根据数据的特性选择正态分布,或二项分布,或泊松分布对其进行建模。运维人员可以根据情况选择不同算法对性能指标序列进行阈值发现。例如,正态分布模型。正态分布以均数μ为中心,左右对称。正态分布有两个参数,即均差μ和标准差σ;常用N(μ,σ)表示均数μ、标准差为σ的正态分布。正态曲线下的面积分布有一定规律:曲线下对称于μ的区间面积相等;曲线下横轴上的总面积为100%或1。阈值发现的思路就是根据选定特定粒度后的,性能指标数据序列,根据给定的这个序列的正常值比例N(比如N=95%,也就是正态分布曲线界于阈值上限和阈值下限之间的面积),然后根据这些条件确定阈值上限和阈值下限。当数据序列本身存在缺值的情况下,根据移动平均值的方式对其进行补值。
(2)基于策略的自动分析模块结构。基于策略的自动分析模块结构见图2,包括七个部分:策略编辑单元、搜索任务生成单元、策略规则存储单元、策略任务执行触发单元、定时器、阈值发現单元、异常点判别单元,其中:策略编辑单元用于接受并保存用户设置的策略信息,包括分析策略类型,分析策略粒度等。搜索任务生成单元根据策略规则存储单元中的分析策略,生成与分析策略粒度相应的搜索任务,具体过程为:包括加载分析策略,根据分析策略实例化搜索任务等工作。实例化过程是指确定被分析的网元类型、网元、时间范围、时间粒度、业务粒度等信息。实例化好后的异常发现任务由定时器调度执行。搜索任务生成单元根据搜索任务执行的结果(异常点消息)及自动分析策略再选择是否需要继续实例化搜索任务或是自动分析结束。策略规则存储单元存储运维专家定义的自动分析策略规则。作为自动分析策略规则的存储库,固化和积累运维专家的大量分析经验,可以极大提高初级运维分析人员分析水平和工作效率。搜索任务执行触发单元在收到搜索任务生成单元消息时,触发异常点判别单元进行数据获取及异常的判断。异常点判别单元根据搜索任务执行触发单元发送的触发消息中的参数启动异常点判别过程,包括:根据参数从数据源获取数据,数据源可以是OLTP的操作型数据库,或是用于分析的数据仓库,或是厂家的OMC数据库。同时从阈值发现单元获取所需性能指标波动的正常范围及阈值。根据分析策略,使用阈值判别法或是表达式求值法判定网络性能指标异常,并将异常消息反馈给触发单元及任务生成单元。阈值发现单元,用于根据定义的自动分析策略中的粒度信息获取历史数据生成指标正常波动范围,阈值发现任务被定时器周期调度。定时器,用于触发搜索任务生成单元及阈值发现单元。
(3)基于策略的自动分析重要流程。基于策略的自动分析的主流程如下。步骤S101:加载策略规则库中的策略。步骤S102:根据自动分析策略实例化搜索任务,并加入到执行队列中。步骤S103:判断执行队列是否为空,是否所有的搜索任务都已经完成。步骤S104:根据搜索任务的信息获取网络性能数据及阈值波动范围信息判断网络性能数据进行比对。步骤S105:判断网络性能指标是否异常。如果没有异常则回归步骤S103。步骤S106:如果网络性能指标异常,根据预定义的自动分析策略扩展新的搜索范围,拓展方式包括:根据网元的拓扑连接关系拓展,如BSC指标异常,根据拓扑关系可能拓展至连接BSC和MSC的中继群,或是BSC所辖的小区。根据网元的指标关系拓展,如小区的话务量异常,拓展至小区的试呼次数,占用次数等,或是更进一步根据小区的厂商,拓展至OMC侧的原始性能报告中的指标。步骤S107:根据网络异常发现的结果及自动分析策略的搜索路径自动产品异常点报告。
三、总结
基于策略的性能异常分析已在GSM网管系统的性能分析模块中进行了大规模的实验和运行,它把用户日常的异常查找经验模式化,采用自动查找方式替代手工查找,自动、高效、准确地发现网络运行过程中存在的异常情况,应用效果良好。
【参考文献】
[1] 杜天苍、张晓明、商圣刚:GSM网管系统性能数据采集与转换软件设计[J].计算机工程与设计,2003(5).
[2] 孟洛明:现代网络管理技术[M].北京邮电大学出版,2006.
【关键词】GSM策略性能管理异常分析
一、概述
GSM网管系统需要采集GSM网络中的网元的性能、资源、告警信息。而其中所需采集的性能数据量最大:一个中等省份的运营商网络将包括2-3万个左右的小区,50个以上的MSC,每种类型的网元平均每小时(最小时间粒度可达5分钟)将采集平均5个以上的性能测量报告,在这些数据的基础上用户会提出100个以上的省级运维分析报表来满足日常的运维分析要求,面对综合网管中大量的数据分析工作,在目前的网管系统中,普遍采用的一种定时形成固定报表进行人工分析的模式。在日常运维分析的基础上,运维人员希望通过对性能数据的分析发现告警监控发现不了的故障。由于这种潜在的故障历时时间短,所需查看的网元范围不确定,涉及的报表数量多,报表粒度组合多,通过人工查看的方式往往难以发现。有鉴于此,提出一种基于策略的网络性能自动异常分析方法。相对于基于固定报表的人工分析模式,基于策略的自动异常分析提供策略编辑器允许运维人员定制网络性能数据的自动分析策略,包括可定义搜索路径,定义被搜索的网元范围,被搜索的时间范围等条件,通过定义的策略,可以灵活动态的适应各种网络分析的场景,可以定时自动对海量的网络性能数据进行搜索和异常点发现,并根据定义的策略输出自动分析报告,方便运维人员全面,快速地发现隐藏在网络性能数据中的网络故障,辅助用户进行排障和性能调优。
二、基于策略的自动分析方法
1、NGOSS策略域的模型
NGOSS基于策略的管理被认为是一种针对分布式系统的良好的管理机制。其主要概念包括:策略(Policy):策略是一组规则,这些规则是用来管理和控制一个或者更多的被管理的目标的状态和状态的转变。策略规则(Policy Rule):策略规则如同一个智能的数据容器。其中的数据定义了如何在一个被管环境中使用Policy Rule以及一些用来规定的这些应用Policy Rule的被管实体间的相互作用的行为规范。策略规则包括的数据有四种类型:定义策略规则的行为和语义以及它所影响的系统其他部分的行为;一组事件,这些事件是用来追踪Policy Rule的条件语句的值;Policy Rule所有的条件;PolicyRule的所有行为。策略触发(Policy Event):是一个重要事件的发生,能够被用来追踪PolicyRule中的PolicyCondition或Policy Condition子句的值。策略条件(Policy Condition):一个策略条件子句,是一个单独的策略条件,它被当作一个Policy Rule所聚集的最小不可分的个体来对待。它用一个布尔表达式表示,定义了必要的状态以及(或)定义是否由同样Policy Rule的行为来展现的先决条件。当策略条件子句和Policy Rule相关联时,它的值置为TRUE。策略执行(Policy Action):策略执行子句是一个单独的Policy Action,被当作一个Policy Rule所聚集的不可分的最小个体来对待。它代表了Policy Condition子句值为TRUE的时候必须要执行的行为。图1所示即为这个策略的作用关系。当策略满足条件时,定义的行为开始执行。
2、基于策略的自动分析方法
自动分析策略分为两种类型:一是面向网元类型的分析策略:按照网元类型进行搜索的策略。二是面向网元的分析策略:按照具体网元进行搜索的策略。下文是一个分析策略实例:当对MSC的话务量进行分析时,可能首先考察MSC的TCH话务量,如果这个指标出现了异常(偏高或者偏低),下一步可能会对跟该MSC相关的所有中继群的话务量和试呼次数进行分析,同时对该MSC下所有的BSC的TCH话务量进行分析,查找其中的异常信息(某些中继群的异常或者某些BSC的指标异常会导致MSC的话务量异常),如果BSC的TCH话务量发现异常,又可能会对BSC下的所有BTS的TCH话务量进行分析,发现其中的异常。不难看出,以上例子中所描述的搜索路径实际上是网管分析人员日常进行异常查找和追踪的路径,如果手工进行,会在大量的数据和网元的关系中迷失方向,现在仅仅需要定义一个抽象的搜索路径,系统会自动定位相关网元,进行自动的异常识别。
(1)网络性能异常点判别方法。第一,表达式求值的方式通过为指标指定一个表达式,如果指标的值满足这个表达式,就说明发生了异常,否则就是正常的。表达式求值法适合于判别有固定阈值的指标,比如掉话率,所有小区要求掉话率必须小于某一个固定阈值。第二,自动阈值发现方式是指针对阈值不固定的指标,如话务量,试呼次数等。由于每个网元所处的地理位置不同,网络拓扑联接关系不同,导致每个网元的话务模型都会不同。需要根据每一个特定网元,特定的时间序列,特定的性能指标进行阈值发现,这样才能真正发现特定网元的性能异常。一是,阈值发现的维度粒度选择。由于不同维度粒度条件下的性能指标可能不具备可比性,所以在进行阈值发现时,需要选定相应的维度和粒度。阈值发现的维度及粒度包括:时间维度包括:15分钟、小时、周中时(如每周一10点)、天中时(如每天10点)、忙时、天、月中天、周、月、特定事件等;网元维度包括:小区、BSC、中继群、MSC、城市、地区、省、LAC、网元组(热点小区、热点中继)等;业务维度包括:互联互通中继群、目的码分类、流向分类等。二是,阈值发现算法。当选定了特定的粒度后,性能指标的波动将剔除地域因素,不同时间序列等因素,性能指标将形成一个根据时间序列波动的曲线。可以根据数据的特性选择正态分布,或二项分布,或泊松分布对其进行建模。运维人员可以根据情况选择不同算法对性能指标序列进行阈值发现。例如,正态分布模型。正态分布以均数μ为中心,左右对称。正态分布有两个参数,即均差μ和标准差σ;常用N(μ,σ)表示均数μ、标准差为σ的正态分布。正态曲线下的面积分布有一定规律:曲线下对称于μ的区间面积相等;曲线下横轴上的总面积为100%或1。阈值发现的思路就是根据选定特定粒度后的,性能指标数据序列,根据给定的这个序列的正常值比例N(比如N=95%,也就是正态分布曲线界于阈值上限和阈值下限之间的面积),然后根据这些条件确定阈值上限和阈值下限。当数据序列本身存在缺值的情况下,根据移动平均值的方式对其进行补值。
(2)基于策略的自动分析模块结构。基于策略的自动分析模块结构见图2,包括七个部分:策略编辑单元、搜索任务生成单元、策略规则存储单元、策略任务执行触发单元、定时器、阈值发現单元、异常点判别单元,其中:策略编辑单元用于接受并保存用户设置的策略信息,包括分析策略类型,分析策略粒度等。搜索任务生成单元根据策略规则存储单元中的分析策略,生成与分析策略粒度相应的搜索任务,具体过程为:包括加载分析策略,根据分析策略实例化搜索任务等工作。实例化过程是指确定被分析的网元类型、网元、时间范围、时间粒度、业务粒度等信息。实例化好后的异常发现任务由定时器调度执行。搜索任务生成单元根据搜索任务执行的结果(异常点消息)及自动分析策略再选择是否需要继续实例化搜索任务或是自动分析结束。策略规则存储单元存储运维专家定义的自动分析策略规则。作为自动分析策略规则的存储库,固化和积累运维专家的大量分析经验,可以极大提高初级运维分析人员分析水平和工作效率。搜索任务执行触发单元在收到搜索任务生成单元消息时,触发异常点判别单元进行数据获取及异常的判断。异常点判别单元根据搜索任务执行触发单元发送的触发消息中的参数启动异常点判别过程,包括:根据参数从数据源获取数据,数据源可以是OLTP的操作型数据库,或是用于分析的数据仓库,或是厂家的OMC数据库。同时从阈值发现单元获取所需性能指标波动的正常范围及阈值。根据分析策略,使用阈值判别法或是表达式求值法判定网络性能指标异常,并将异常消息反馈给触发单元及任务生成单元。阈值发现单元,用于根据定义的自动分析策略中的粒度信息获取历史数据生成指标正常波动范围,阈值发现任务被定时器周期调度。定时器,用于触发搜索任务生成单元及阈值发现单元。
(3)基于策略的自动分析重要流程。基于策略的自动分析的主流程如下。步骤S101:加载策略规则库中的策略。步骤S102:根据自动分析策略实例化搜索任务,并加入到执行队列中。步骤S103:判断执行队列是否为空,是否所有的搜索任务都已经完成。步骤S104:根据搜索任务的信息获取网络性能数据及阈值波动范围信息判断网络性能数据进行比对。步骤S105:判断网络性能指标是否异常。如果没有异常则回归步骤S103。步骤S106:如果网络性能指标异常,根据预定义的自动分析策略扩展新的搜索范围,拓展方式包括:根据网元的拓扑连接关系拓展,如BSC指标异常,根据拓扑关系可能拓展至连接BSC和MSC的中继群,或是BSC所辖的小区。根据网元的指标关系拓展,如小区的话务量异常,拓展至小区的试呼次数,占用次数等,或是更进一步根据小区的厂商,拓展至OMC侧的原始性能报告中的指标。步骤S107:根据网络异常发现的结果及自动分析策略的搜索路径自动产品异常点报告。
三、总结
基于策略的性能异常分析已在GSM网管系统的性能分析模块中进行了大规模的实验和运行,它把用户日常的异常查找经验模式化,采用自动查找方式替代手工查找,自动、高效、准确地发现网络运行过程中存在的异常情况,应用效果良好。
【参考文献】
[1] 杜天苍、张晓明、商圣刚:GSM网管系统性能数据采集与转换软件设计[J].计算机工程与设计,2003(5).
[2] 孟洛明:现代网络管理技术[M].北京邮电大学出版,2006.