论文部分内容阅读
随着网络技术的发展,网络资源呈现出异构性和动态性,网络管理的功能日益复杂,传统的网络管理技术已经无法满足对大型复杂网络管理的需要。结构复杂,规模巨大的电信网络每天产生大量告警。告警是一个异常的有害事件,通常是一个自动监测到的故障,提供给网管人员一定的信息。因为某一个故障可能引起一系列告警,所以并不是所有的告警都表明故障原因,故障管理系统想要准确定位网络故障相当困难。传统的网络管理系统和网络管理员只能依靠自身有限的经验和网络管理系统有限的功能进行故障诊断、定位和恢复。但在网络日益扩大且迅速演变的情况下,这些知识已无法满足需求。目前国内外学者对网络告警进行了很多的研究,有多种方法被应用于网络故障告警相关性分析中。其中,数据挖掘的方法被广泛研究和应用。本文首先对数据挖掘的概念、功能、基本流程等进行了概述。其次对电信网络基本结构以及电信网络告警数据特征进行了介绍。最后提出了数据挖掘技术在电信网络告警相关性分析中的应用,详细介绍了关联规则挖掘算法和序列模式挖掘算法。关联规则挖掘算法是一种常用的方法,其中Apriori算法是关联规则挖掘领域中最经典的算法之一,也是一种最具有影响力的挖掘布尔关联规则频繁项集的算法。关联规则算法的核心思想是基于频集理论的递推方法,所采用的是逐层搜索的迭代方法。Apriori算法会产生大量的侯选集,同时多次扫描数据库。针对Apriori算法存在的问题,Jiawei Han等人于2000年提出了另一个经典的算法——FP-growth算法,该算法基于FP-tree(频繁模式树)采取分治策略,从而在挖掘出全部频繁项集时并不产生候选项目集。文章对两种算法进行了比较,并以武汉电信某网管中心的告警数据为实验数据,对实验结果进行分析。序列模式挖掘是关联规则挖掘的延伸,序列是由许多有序事件组成的数据集合,是数据挖掘的一个重要分支,用于提取一维空间上有序集合的频繁子集。如果把网络告警信息库看成按时间排列的有序集合,那么序列模式挖掘就可以用来发现频繁出现的告警序列模式,从而导出告警关联规则。本文采用了基于FP树的告警频繁序列模式挖掘算法FSPMFP(Frequent Sequential Pattern Mining basedon Frequent Tree)的基本思想是:通过对FP树的改进,将告警数据压缩到一棵频繁模式树上,针对频繁模式树自底向上查找频繁告警项集,最后挖掘告警间的时序关系。