论文部分内容阅读
【摘要】本文主要介绍以维护工作中的监控场景及信息展示需求为核心,整合日常监控、重大节假日监控等场景下的各种信息及相关手段,实现对网络、客户、业务发生的事件和异常快速的发现、准确的定位、及时的响应。
【关键词】告警故障性能
综合监控工作是指在通信企业第一时间掌握网络整体状况的基础上,进行快速响应和资源调度,以期用最短时间减少业务影响的综合性工作。综合监控系统是满足综合监控工作的支撑系统之一,是以维护工作的监控及部分集中展示场景为核心,整合日常监控、通信保障等场景下的各种信息及相关手段,实现对网络、客户、业务发生的事件和异常进行快速的发现、准确的定位、及时的响应。
综合监控的重点在于,根据日常监控场景的需要,将各类网元作为监控对象以及参考来自于其他系统的信息,以网元粒度、地区粒度、省级粒度进行监控。
一、综合监控的管理范围
1.当前告警信息。各专业、各级别告警的数量:各专业的告警量(话音、数据、传输、动环等);各级别的告警量(一级告警,二级告警,三级告警)。
2.当前性能指标信息。网络性能指标是当前网络情况下网元的性能指标的直观呈现,包括:信道可用率、接通率、掉话率、拥塞率、系统接通率、位置更新成功率、系统寻呼成功率、PDP激活成功率、短信全程接通率(%)、短信MO接通率(%)、短信MT接通率(%)、WAP总接通率、MMS网络接通率等。通过对这些性能指标进行监控,能够更好的发现网络隐患。
3.网络KPI动态展示。值班长需要能够管控到准实时的业务动态指标的情况,能够做到简单的指标判断和分析的工作,这些动态指标主要指小时粒度以上的指标,如话务量、短信量、彩信量、数据业务流量、登记用户数、系统接通率等,在进行准实时趋势展现时,一般需要具备日常对比或者历史同期对比功能。
4.当前投诉数量信息。呈现各地区、各类投诉数量信息,投诉分类与EOMS保持一致。
5.当前故障工单数量信息。呈现各地区、各专业故障工单数量信息,各种状态的工单数量如“已派发工单”,“等待受理工单”,“正在处理工单”“已处理工单”,“超时工单”,“将要超时工单”,“长时间未受理”等状态的工单数量;各专业工单量,如话音,数据,传输,动环等专业。
6.工程调整信息。包括工程割接、调整计划以及对网络可能产生的影响。
7.外围事件信息。包括可能对通信网络造成影响的天气、社会重大事件、社会安全事件及相关新闻进行监控。
8.应急调度管理。当日常监控场景期间发生异常事件时,具备对网络异常事件的快速处理能力,具备对网络设备故障的快速恢复、容灾切换能力,具备应急预案的快速执行能力。
9.信息发布。日常监控场景下,当发生重大故障时,需要向相关专业负责人、各级领导发布故障相关信息,信息发布内容主要涵盖以下几个方面:故障网元、故障发生时间、故障影响范围、故障处理情况、故障结束时间、故障历时、故障原因。
二、综合监控的系统建设方案
需要建设综合监控系统来满足通信企业对综合监控工作的要求,综合监控系统应是一个7*24小时不间断运行的、高可靠性、高处理能力、可扩展性强的环境下的业务支撑系统。根据CMOSS2.0规划以及省级综合监控系统的规划,重点实现全专业、跨专业告警关联监控、集客监控、拓扑监控、概况监控、集中性能监控的规划落地,构建一个面向全专业的、稳定的、开放的、灵活的、可扩展的系统架构,如图1所示。
1、系统网络架构
数据库/采集服务器部署在Unix主机上,两台主机通过两台光纤交换机与光纤阵列交叉相连,组成高可靠的集群系统,互为备份。其上运行数据库系统、内存数据库系统、接口适配器及部分基于Unix的应用软件。
Web服务器部署在PC服务器上,安装基于Windows操作系统的IIS作为web发布平台及相关web应用软件。
GIS服务器(可利旧)负责给综合监控系统提供GIS平台服务。
告警中层处理服务器提供告警分发等告警中层处理服务。
鉴权服务器提供系统整体的鉴权服务,并作为其它PC服务器的冷备份机,如图2所示。
2、系统接口
综合监控系统第一阶段不考虑和ESB平台、统一采集平台、业务质量监测系统的接口,所有数据都来自于专业网管、综合资源,综合监控外部接口如图3所示:
3、系统总体要求
(1)告警数量准确。
来自网元或OMC等的告警在采集中数量准确一致,告警完整率在99.9%以上。
(2)告警数据内容完整。来自网元或OMC等的告警内容在采集中告警内容准确一致。
4、公共技术要求
(1)支持Windows、Solaris、AIX、HP-UX、Linux等主流操作系统,支持主流数据库。(2)支持GBK、GB2312、BIG5、UTF8等字符集编码。(3)非实时类应用客户端尽量采用B/S技术,支持主流浏览器。(4)总部系统支持多语言、多时区,语言至少包括简体中文、英文;时区至少包括北京时间、巴基斯坦时间。用户第一次登录时,系统自动获取客户端的语言设置、时区设置;之后,用户可自行设置语言和时区,系统根据用户设置进行显示。(5)所有的删除操作和重要操作必须提示用户,经用户确认才能完成。(6)确保不会因用户误操作而导致掉线、应用混乱或系统崩溃。(7)具备在线升级能力。(8)为保护已有投资和延续维护习惯,建议数据库选用ORACLE,消息中间件选用IBM MQ,拓扑中间件选用Twaver。同时内存数据库选用主流的商用软件产品。
5、主要功能
(2)跨专业告警监控
全专业告警监控适用于监控现场管理人员及一线监控人员实时掌握全网运行情况,是告警标准化工作的进一步延伸,可对核心网、无线网、数据网、传输网、动环、拨测、巡检、业务质量等全专业多业务的告警按照告警标准化字段要求进行呈现,快速实现通信网络端到端的管理、面向业务和面向客户的全业务集中监控、统一管理。系统架构图如图4所示:全专业告警监控模块采用层次的设计思路,将服务与应用分离,主要包括:告警标准化呈现、工程告警标注、告警关联、告警派单、告警查询、告警统计、告警处理等功能。
(3)概况监控
概况监控场景用于呈现全网设备运行情况,基于地图呈现资源信息、告警信息、性能信息、工单信息、工程信息、业务质量监控信息等。基于定制的窗口掌握全网总体情况。概况监控场景下,通过GIS图层和窗口可以实现资源信息可视、故障信息可视。
三、难点总结
由于综合监控从各专业网管采集告警、性能数据,专业内告警标准化、专业内告警关联都已经在专业网管实现,所以综合监控比专业网管的监控功能突出的一个强项,就是跨专业的关联能力,包括跨专业的告警关联、告警与资源数据的关联、告警与集客业务的关联、告警与集客客户的关联等。而这些关联能力的实现,都强烈依赖于综合监控采集到的各专业资源数据的完整性与准确性。
【关键词】告警故障性能
综合监控工作是指在通信企业第一时间掌握网络整体状况的基础上,进行快速响应和资源调度,以期用最短时间减少业务影响的综合性工作。综合监控系统是满足综合监控工作的支撑系统之一,是以维护工作的监控及部分集中展示场景为核心,整合日常监控、通信保障等场景下的各种信息及相关手段,实现对网络、客户、业务发生的事件和异常进行快速的发现、准确的定位、及时的响应。
综合监控的重点在于,根据日常监控场景的需要,将各类网元作为监控对象以及参考来自于其他系统的信息,以网元粒度、地区粒度、省级粒度进行监控。
一、综合监控的管理范围
1.当前告警信息。各专业、各级别告警的数量:各专业的告警量(话音、数据、传输、动环等);各级别的告警量(一级告警,二级告警,三级告警)。
2.当前性能指标信息。网络性能指标是当前网络情况下网元的性能指标的直观呈现,包括:信道可用率、接通率、掉话率、拥塞率、系统接通率、位置更新成功率、系统寻呼成功率、PDP激活成功率、短信全程接通率(%)、短信MO接通率(%)、短信MT接通率(%)、WAP总接通率、MMS网络接通率等。通过对这些性能指标进行监控,能够更好的发现网络隐患。
3.网络KPI动态展示。值班长需要能够管控到准实时的业务动态指标的情况,能够做到简单的指标判断和分析的工作,这些动态指标主要指小时粒度以上的指标,如话务量、短信量、彩信量、数据业务流量、登记用户数、系统接通率等,在进行准实时趋势展现时,一般需要具备日常对比或者历史同期对比功能。
4.当前投诉数量信息。呈现各地区、各类投诉数量信息,投诉分类与EOMS保持一致。
5.当前故障工单数量信息。呈现各地区、各专业故障工单数量信息,各种状态的工单数量如“已派发工单”,“等待受理工单”,“正在处理工单”“已处理工单”,“超时工单”,“将要超时工单”,“长时间未受理”等状态的工单数量;各专业工单量,如话音,数据,传输,动环等专业。
6.工程调整信息。包括工程割接、调整计划以及对网络可能产生的影响。
7.外围事件信息。包括可能对通信网络造成影响的天气、社会重大事件、社会安全事件及相关新闻进行监控。
8.应急调度管理。当日常监控场景期间发生异常事件时,具备对网络异常事件的快速处理能力,具备对网络设备故障的快速恢复、容灾切换能力,具备应急预案的快速执行能力。
9.信息发布。日常监控场景下,当发生重大故障时,需要向相关专业负责人、各级领导发布故障相关信息,信息发布内容主要涵盖以下几个方面:故障网元、故障发生时间、故障影响范围、故障处理情况、故障结束时间、故障历时、故障原因。
二、综合监控的系统建设方案
需要建设综合监控系统来满足通信企业对综合监控工作的要求,综合监控系统应是一个7*24小时不间断运行的、高可靠性、高处理能力、可扩展性强的环境下的业务支撑系统。根据CMOSS2.0规划以及省级综合监控系统的规划,重点实现全专业、跨专业告警关联监控、集客监控、拓扑监控、概况监控、集中性能监控的规划落地,构建一个面向全专业的、稳定的、开放的、灵活的、可扩展的系统架构,如图1所示。
1、系统网络架构
数据库/采集服务器部署在Unix主机上,两台主机通过两台光纤交换机与光纤阵列交叉相连,组成高可靠的集群系统,互为备份。其上运行数据库系统、内存数据库系统、接口适配器及部分基于Unix的应用软件。
Web服务器部署在PC服务器上,安装基于Windows操作系统的IIS作为web发布平台及相关web应用软件。
GIS服务器(可利旧)负责给综合监控系统提供GIS平台服务。
告警中层处理服务器提供告警分发等告警中层处理服务。
鉴权服务器提供系统整体的鉴权服务,并作为其它PC服务器的冷备份机,如图2所示。
2、系统接口
综合监控系统第一阶段不考虑和ESB平台、统一采集平台、业务质量监测系统的接口,所有数据都来自于专业网管、综合资源,综合监控外部接口如图3所示:
3、系统总体要求
(1)告警数量准确。
来自网元或OMC等的告警在采集中数量准确一致,告警完整率在99.9%以上。
(2)告警数据内容完整。来自网元或OMC等的告警内容在采集中告警内容准确一致。
4、公共技术要求
(1)支持Windows、Solaris、AIX、HP-UX、Linux等主流操作系统,支持主流数据库。(2)支持GBK、GB2312、BIG5、UTF8等字符集编码。(3)非实时类应用客户端尽量采用B/S技术,支持主流浏览器。(4)总部系统支持多语言、多时区,语言至少包括简体中文、英文;时区至少包括北京时间、巴基斯坦时间。用户第一次登录时,系统自动获取客户端的语言设置、时区设置;之后,用户可自行设置语言和时区,系统根据用户设置进行显示。(5)所有的删除操作和重要操作必须提示用户,经用户确认才能完成。(6)确保不会因用户误操作而导致掉线、应用混乱或系统崩溃。(7)具备在线升级能力。(8)为保护已有投资和延续维护习惯,建议数据库选用ORACLE,消息中间件选用IBM MQ,拓扑中间件选用Twaver。同时内存数据库选用主流的商用软件产品。
5、主要功能
(2)跨专业告警监控
全专业告警监控适用于监控现场管理人员及一线监控人员实时掌握全网运行情况,是告警标准化工作的进一步延伸,可对核心网、无线网、数据网、传输网、动环、拨测、巡检、业务质量等全专业多业务的告警按照告警标准化字段要求进行呈现,快速实现通信网络端到端的管理、面向业务和面向客户的全业务集中监控、统一管理。系统架构图如图4所示:全专业告警监控模块采用层次的设计思路,将服务与应用分离,主要包括:告警标准化呈现、工程告警标注、告警关联、告警派单、告警查询、告警统计、告警处理等功能。
(3)概况监控
概况监控场景用于呈现全网设备运行情况,基于地图呈现资源信息、告警信息、性能信息、工单信息、工程信息、业务质量监控信息等。基于定制的窗口掌握全网总体情况。概况监控场景下,通过GIS图层和窗口可以实现资源信息可视、故障信息可视。
三、难点总结
由于综合监控从各专业网管采集告警、性能数据,专业内告警标准化、专业内告警关联都已经在专业网管实现,所以综合监控比专业网管的监控功能突出的一个强项,就是跨专业的关联能力,包括跨专业的告警关联、告警与资源数据的关联、告警与集客业务的关联、告警与集客客户的关联等。而这些关联能力的实现,都强烈依赖于综合监控采集到的各专业资源数据的完整性与准确性。