论文部分内容阅读
摘要:本文提出了一个基于数据挖掘技术的入侵检测系统,其中主要采用了时间序列模式挖掘方法——TFSE算法挖掘入侵模式。该系统实现了规则库的自动更新,极大地提高了系统的整体性能。
关键词:网络安全;入侵检测系统;数据挖掘;
TFSE算法
1、引言
入侵检测被定义为发现非授权使用计算机的个体或计算机系统合法用户非法访问系统以及企图实施上述行为的个体。
入侵检测系统分为3大类:基于网络的入侵检测系统、基于主机的入侵检测系统和混合式入侵检测系统。随着网络遭受的攻击越来越多,基于主机的入侵检测系统难以完成入侵检测任务。基于网络的入侵检测系统被提出,并得到了很快的发展,并成为主流,为目前入侵检测的主要研究和应用方向。
2、数据挖掘在异常检测中常用的方法
数据挖掘的方法比较常见的有关联规则、序列模式、数据分类、聚类分析等。
入侵检测系统中信息源主要是网络传输数据包和系统日志。由于网络数据包和系统日志都是带有时间特性的数据源,所以就要应用时间序列模式的挖掘方法。现在我们熟知的序列模式挖掘方法有:GSP(generalized sequentialpatterns)算法、PSP(perfectly sequential pat-terns)算法、PrefixSpan (Prefix-project Se-quential Pattern mining)算法、SPADE算法、FP-Tree算法等。这些挖掘方法挖掘的对象是许多个较短的序列,从这些序列中挖掘出频繁的序列模式,而它们对数据的时间性没有着重考虑。然而,时间序列数据流是一个很长的序列,我们所要挖掘的是该序列中频繁的情节模式。因此本文针对在时间序列数据流中挖掘频繁串行情节问题,提出了一种具有可持续挖掘的方法——TFSE (Time-table-joined fre-quent Serial Episodes)算法,用于入侵检测系统。
3、基于数据挖掘的入侵检测系统
3.1系统的组成
基于数据挖掘的入侵检测系统的结构主要由数据采集模块、数据预处理模块、数据分类模块、规则匹配模块、规则库、决策模块等部分组成。
3.2系统工作流程
数据采集:数据采集模块在计算机网络系统中的若干不同关键点采集信息,如网关和需要重点保护的服务器等,这样可以全面了解网络上的行为以便对入侵进行更为精确的判断。
数据预处理:数据预处理模块将数据采集模块采集到的信息进行预处理,剔除掉无效数据,并将原始数据整理成数据挖掘算法可识别的审计数据格式,即连接记录。
数据分类:对审计数据执行数据分类,即用数据挖掘算法挖掘连接记录中隐含的模式,并将其同规则库中的模式进行比较,如果是新规则,则将其存入规则库,对于异常和无匹配的结果发出警报。并在管理员的参与下决定是否是真正的入侵,并将其存入规则库。
决策:如判断有入侵情况出现,则采用断开连接、关闭端口等方式进行处理。
4、算法实现
本系统主要采用了时间序列模式挖掘方法——TFSE (Time-table-joined FrequentSerial Episodes)算法来挖掘入侵模式。
4.1 TFSE算法的相关定义与公式
情节(episode)是若干事件类型的组合。L个事件组成的情节,其长度是L,用符号A表示其长度,该情节记为L——长度情节。
情节中的事件有序且每个事件发生的时刻有且仅有该事件发生,则该情节为串行情节(serial episode)。串行情节中的事件有明确的时间先后顺序。例如:串行情节EF,E和F的发生时间分别为t1和t2,t1 情节时间表(episode-time-table):有情节<(A,t1)(B,t2)>,<(A,t3)(B,t5)>,<(A,t7)(B,t9)>,将情节事件起止发生时间添加到列表中,则情节AB的情节时间表。
情节支持度计算公式:时间序列事件个数D,情节A,在时间序列中支持数C,则情节A的支持度为Support=C/D。
给定最小支持度min-sup,如果有串行情节A的支持度为SuppoRA,且SupportA≥min-sup,那么称A为频繁串行情节。
4.2 TFSE算法描述
(1)扫描时间序列,生成长度为1的情节L1和长度为2的情节L2,构造2——长度时间表:
(2)计算L1的支持度,去除L1中不满足最小支持度要求的情节。对L1和L2做剪切操作,将L2作为初始种子集:
(3)根据长度为i(i>1)的种子集Li,通过连接操作和剪切操作生成长度为i+1的候选情节集Ci+l。对两个合适的情节时间表进行数据库连接操作,生成在Ci+l对应的情节时间表。将满足最小支持度要求的候选情节集Li+1作为新的种子集:
(4)重复第三步,直到没有新的情节模式或新的候选情节产生为止。
TFSE算法产生候选情节主要分两步:
(1)连接:如果去掉情节模式s1的第一个事件与去掉情节模式s2的最后一个事件所得到的情节相同。则可以将s1与s2进行连接,即将s2的最后一个事件添加到s1中。
(2)剪切:若某候选情节模式的某个子情节不是情节模式,则此候选情节模式不可能是情节模式,将它从候选情节模式中删除。
在TFSE算法中,通过情节时间表的数据库连接生成新的情节时间表,从而计算新情节的支持数。因为可以保存生成的情节时间表。所以在进行频繁串行情节的挖掘后,还可以多次进行再次挖掘。
5、结束语
信息安全对Internet的健康发展起着举足轻重的作用,作为信息安全的一个重要组成部分的入侵检测技术引起了越来越多的研究人员的关注。人们纷纷从不同的角度出发研究基于内容的网络攻击解决方案。本文提出了一个基于数据挖掘的网络入侵检测系统,主要采用时间序列模式挖掘方法——TFSE算法来提取入侵模式,减少了人工参与,极大地提高了入侵检测系统的性能。
关键词:网络安全;入侵检测系统;数据挖掘;
TFSE算法
1、引言
入侵检测被定义为发现非授权使用计算机的个体或计算机系统合法用户非法访问系统以及企图实施上述行为的个体。
入侵检测系统分为3大类:基于网络的入侵检测系统、基于主机的入侵检测系统和混合式入侵检测系统。随着网络遭受的攻击越来越多,基于主机的入侵检测系统难以完成入侵检测任务。基于网络的入侵检测系统被提出,并得到了很快的发展,并成为主流,为目前入侵检测的主要研究和应用方向。
2、数据挖掘在异常检测中常用的方法
数据挖掘的方法比较常见的有关联规则、序列模式、数据分类、聚类分析等。
入侵检测系统中信息源主要是网络传输数据包和系统日志。由于网络数据包和系统日志都是带有时间特性的数据源,所以就要应用时间序列模式的挖掘方法。现在我们熟知的序列模式挖掘方法有:GSP(generalized sequentialpatterns)算法、PSP(perfectly sequential pat-terns)算法、PrefixSpan (Prefix-project Se-quential Pattern mining)算法、SPADE算法、FP-Tree算法等。这些挖掘方法挖掘的对象是许多个较短的序列,从这些序列中挖掘出频繁的序列模式,而它们对数据的时间性没有着重考虑。然而,时间序列数据流是一个很长的序列,我们所要挖掘的是该序列中频繁的情节模式。因此本文针对在时间序列数据流中挖掘频繁串行情节问题,提出了一种具有可持续挖掘的方法——TFSE (Time-table-joined fre-quent Serial Episodes)算法,用于入侵检测系统。
3、基于数据挖掘的入侵检测系统
3.1系统的组成
基于数据挖掘的入侵检测系统的结构主要由数据采集模块、数据预处理模块、数据分类模块、规则匹配模块、规则库、决策模块等部分组成。
3.2系统工作流程
数据采集:数据采集模块在计算机网络系统中的若干不同关键点采集信息,如网关和需要重点保护的服务器等,这样可以全面了解网络上的行为以便对入侵进行更为精确的判断。
数据预处理:数据预处理模块将数据采集模块采集到的信息进行预处理,剔除掉无效数据,并将原始数据整理成数据挖掘算法可识别的审计数据格式,即连接记录。
数据分类:对审计数据执行数据分类,即用数据挖掘算法挖掘连接记录中隐含的模式,并将其同规则库中的模式进行比较,如果是新规则,则将其存入规则库,对于异常和无匹配的结果发出警报。并在管理员的参与下决定是否是真正的入侵,并将其存入规则库。
决策:如判断有入侵情况出现,则采用断开连接、关闭端口等方式进行处理。
4、算法实现
本系统主要采用了时间序列模式挖掘方法——TFSE (Time-table-joined FrequentSerial Episodes)算法来挖掘入侵模式。
4.1 TFSE算法的相关定义与公式
情节(episode)是若干事件类型的组合。L个事件组成的情节,其长度是L,用符号A表示其长度,该情节记为L——长度情节。
情节中的事件有序且每个事件发生的时刻有且仅有该事件发生,则该情节为串行情节(serial episode)。串行情节中的事件有明确的时间先后顺序。例如:串行情节EF,E和F的发生时间分别为t1和t2,t1
情节支持度计算公式:时间序列事件个数D,情节A,在时间序列中支持数C,则情节A的支持度为Support=C/D。
给定最小支持度min-sup,如果有串行情节A的支持度为SuppoRA,且SupportA≥min-sup,那么称A为频繁串行情节。
4.2 TFSE算法描述
(1)扫描时间序列,生成长度为1的情节L1和长度为2的情节L2,构造2——长度时间表:
(2)计算L1的支持度,去除L1中不满足最小支持度要求的情节。对L1和L2做剪切操作,将L2作为初始种子集:
(3)根据长度为i(i>1)的种子集Li,通过连接操作和剪切操作生成长度为i+1的候选情节集Ci+l。对两个合适的情节时间表进行数据库连接操作,生成在Ci+l对应的情节时间表。将满足最小支持度要求的候选情节集Li+1作为新的种子集:
(4)重复第三步,直到没有新的情节模式或新的候选情节产生为止。
TFSE算法产生候选情节主要分两步:
(1)连接:如果去掉情节模式s1的第一个事件与去掉情节模式s2的最后一个事件所得到的情节相同。则可以将s1与s2进行连接,即将s2的最后一个事件添加到s1中。
(2)剪切:若某候选情节模式的某个子情节不是情节模式,则此候选情节模式不可能是情节模式,将它从候选情节模式中删除。
在TFSE算法中,通过情节时间表的数据库连接生成新的情节时间表,从而计算新情节的支持数。因为可以保存生成的情节时间表。所以在进行频繁串行情节的挖掘后,还可以多次进行再次挖掘。
5、结束语
信息安全对Internet的健康发展起着举足轻重的作用,作为信息安全的一个重要组成部分的入侵检测技术引起了越来越多的研究人员的关注。人们纷纷从不同的角度出发研究基于内容的网络攻击解决方案。本文提出了一个基于数据挖掘的网络入侵检测系统,主要采用时间序列模式挖掘方法——TFSE算法来提取入侵模式,减少了人工参与,极大地提高了入侵检测系统的性能。