基于事件知识库的计算机网络故障管理研究

来源 :硅谷 | 被引量 : 0次 | 上传用户:gyf1978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]计算机网络的管理是计算机网络领域中的关键技术之一,分析网络故障的类型,提出将事件知识库用于计算机网络故障的管理。实验表明,计算机网络故障的智能管理提供基于知识的决策手段,比传统的管理方式具有更高的决策水平,为专家系统技术在故障的检测和隔离方面更加广泛的应用,奠定一定基础。
  [关键词]网络 故障 智能化 事件知识库
  中图分类号:TP3 文献标识码:A 文章编号:1671—7597(2009)1010082—01
  
  一、计算机网络故障管理的类型
  
  故障类型指的是具有某种特征的故障的分类。通常我们可以根据故障发生来源的不同,将它们划分为两大类,即硬故障(hard errors)和软故障(soft errors)。硬故障是指网络的硬件设备在工作过程中产生的各种错误。这些错误与该设备的作用有密切关系,网络系统的复杂性也正是由于设备的多样性而体现出来的。根据这网络设备的作用,我们也可以将故障简单分为以下三类:
  (一)连接设备故障
  这种故障的现象主要是网络的物理连接出现问题,也可以称为通路故障。造成故障的原因可能是电缆线断开、收发器断开或不能正常工作以及其它连接设备间的接口出问题等等。根据这类故障的来源不同,我们又可以将该类型的故障细分为线路故障、网络接口故障、收发器故障、路由器故障等等,该类故障是故障管理的最主要对象。
  (二)共享设备故障
  这种故障的表现是用于资源共享的设备出现问题,不能提供或享受所需的服务。同样,该类型的故障也可以细分为服务器故障(打印机故障、文件服务器故障等)、工作站故障等等。
  (三)其它设备故障
  包括电源故障、监控器故障、测试仪故障、分析仪故障等等。软故障是指网络系统软件运行出错。软故障的发现和处理是在管理过程中逐渐被人们所认识的,因为软件属于一种无形的东西,问题的表现不如硬件那么直观。从这个意义上看,软故障的识别和诊断更加困难。故障管理中所处理的软故障主要针对与网络通讯和服务有关的系统软件,它可以直接根据网络软件来划分,包括通讯协议软件故障、网络文件系统(FNS)故障、文件传输软件故障、域名服务系统(DNS)等等,其中通讯协议软件故障是系统研究的重点。这种错误通常是在协议软件运行时遇到某个异常条件(如缓冲队列满)或协议软件本身未提供可靠机制而导致传输失败,报文丢失。
  故障类型并不是一成不变的。随着网络在复杂性和规模上提高,网络故障管理的要求也在不断增加。新的技术、设备的应用使故障的类型、故障原因、故障源等各方面都发生了变化,这就要求故障管理系统必须增加新的内容。
  
  二、影响故障管理的因素
  
  与网络管理一样,故障管理也必须考虑三方面的因素:过程、设各和工具、人员。成功的故障管理策略是这三者的完整结合,而不仅仅是其中的某一个方面。过程主要指为实现故障管理功能而进行的操作,了解管理的一般过程是开发一个实用的故障管理系统的基础。设备和工具指的是进行故障管理的软硬件工具,包括故障检测设备、维修设备、实用的故障管理系统等。设备和工具在故障管理中起着非常重要的作用,它可以帮助管理员和工程师实施管理功能,排除故障,保障网络系统正常运转。
  
  三、基于事件知识库的计算机网络故障
  
  为了能够更有效地对各种大型复杂的网络进行管理,许多研究人员将人工智能技术应用到网络管理领域。虽然全面的智能化的网络管理距离实际应用还有相当长的一段路要走,但是在网络管理的特定领域实施智能化,尤其是基于专家系统技术的网络管理是可行的。用于故障管理的专家系统由知识库、推理机、知识获取模块和解释接口四大主要部分组成。专家系统以其实时性、协作管理、层次性等特点,特别适合用在网络的故障管理领域。但同时专家系统也面临一些难题:动态的网络变化可能需要经常更新知识库;由于网络故障可能会相关到其它许多事件,很难确定与某一症状相关的时间的开始和结束,解释和综合消息复杂;可能需要大量的指令用以标识实际的网络状态,并且专家系统需要和它们接口;专家系统的知识获取一直以来是瓶颈所在,要想成功地获取网络故障知识,需要经验丰富的网络专家。在实现智能化网络管理系统时,还必须把握系统复杂性与系统性能的关系。不仅要利用将较为成熟的人工智能技术,而且要考虑实现上的复杂度和引入人工智能技术对系统性能和稳定性的影响。
  在专家系统中,知识的表示有逻辑表示法、语义网络表示法、规则表示法、特性表示法、框架表示法和过程表示法。产生式表示法,即规则表示法,是最常见的一种表示法。其特点是模块性、一致性和自然。知识库是知识的集合,严格意义上的知识库包括概念、事实和规则只部分,缺一不可。为了提高故障管理的智能水平,可以建立事件知识库(EKB。Event Knowledge Base,用于存储所有己知事件的类型、产生事件的原因和所造成的影响,以及应该采取什么样的措施等一些细节的静态描述。这个E髓并不是真正意义上的知识库,它的数据仅仅包含了属性值与元组,而属性值表示概念,元组表示事实。但研究EKB可以为今后建立完善的知识库奠定基础。在EKB中存储了已经确定事件。最初,被确定的事件仅限于一些标准事件和措施。随着网络的运行和系统的反馈,EKB的内容将不断增加。理想状态是能够确定所有的事件。下面是EKB涉及到的只种基本的数据库表:
  1 事件类型表:该表中主要存储了事件的静态定义。
  脚中保存了己确定的事件可能涉及的相关知识,如事件类别(如:性能、系统、网络、应用事件或其它)、严重程度(如:严重、主要、次要、警告等)、产生事件的设备标识、指明设各的类型、事件造成什么影响(如:影响网速、单个用户不能访问等)、故障排除参考策略、上次更新的时期/时间、关于这个事件的各注信息、事件的详细描述等。
  2,实时事件表:描述了正在运行的网络中的实时事件。
  实时事件表中提供可能用的一些字段,用于记录网络运行中发生的事件,如:设备的ID(从IP地址或查询设各表可以获得)、实时事件的状态(如:新增、确认、清除等)、根据故障票ID获得的相应的故障票信息等。
  3,设备信息表:存储了网络中设备的实际参数。
  设备信息表主要记录了每个设备的相关参数。例如,设备ID号、IP地址、设备名称、厂商、类型、重要性级别等。
  EKB中存储的相关事件的知识主要来源于专家。开发人员将获得的知识应用到与故障管理相关的系统中,根据不同系统的需要分配相应的知识,以提高系统性能。虽然EKB并不是严格意义上的知识库,但在开发过程中,可以通过不断地增加和修正EKB的内容,在一定程度上提高系统的智能水平。
  
  四、结论
  
  现在一些网管软件趋向于将专家系统等人工智能技术引入到网络故障诊断和排除中。提高网络故障的智能水平有助于网络高效、可靠地运行。
其他文献
试卷严格按照新课标的范围命题,注重数学的学科本质,坚持对基础知识、基本技能和基本方法的考查,兼顾了数学思想方法、思维、应用和潜能多方面的考查,还注意了文、理科的差异.主要体现以下特点:①坚持“重点内容重点考查,非重点内容渗入考查”的思路,突出考查了数学中支撑学科知识体系的主干内容,体现了重点知识在试卷中的突出位置,如函数在本试卷中占了显著的地位. ②注重知识的交叉、渗透和综合,注重检测大家是否具备