论文部分内容阅读
【摘 要】Internet的开放性以及其他方面的因素导致了网络环境下的计算机系统存在很多安全问题,针对这一风险提出一种基于数据挖掘技术的检测伪装异端数据的方法,解析访问端口接收的数据的轴属性,利用轴属性来约束频繁情节中的项集产生,排除“无用”的序列情节规则,从而确定检测规则的可信任度及支持度,实现了伪装异端数据的识别。对建立在从LBL到外界连接上的“工作日上午”通信数据的异常检测模型的实验结果证明了该方法的有效性。
【关键词】数据挖掘;伪装异端数据;轴属性;挖掘模式
文章编号:ISSN1006—656X(2014)05-0147-01
引言
计算机网络的发展,尤其是互联网的迅速发展与普及,使得基于网络的计算机系统在我们的生活、工作、学习等诸多方间,起着越来越大的作用[1]。但随之而来的各种计算机犯罪,尤其是计算机网络系统的非法入侵,以及基于网络的计算机病毒肆意传播,使得其所造成的危害也越来越大。研究利用数据挖掘技术来帮助进行计算机网络系统入侵检测,以及发现计算机病毒[2]。近年来已成为数据挖掘研究中一个倍受关注的领域。
一、 伪装异端数据的检测
随着基于IIS型Web服务器的计算机系统在现代社会中正在发挥越来越大的作用,这类计算机系统已经成为罪犯的主要攻击目标,因此找到尽可能最佳方法来保护这些系统是非常必要的。随着计算机系统日趋复杂,系统中总是存在设计或编程上的缺陷,从而导致系统存在一些安全漏洞。一般的防止人侵技术,诸如用户认证(利用密码或者生物特让),已经不能满足实际需要。因此需要设计出一个系统框架以便能够使入侵检测系统构造过程半自动化[3]。
二、数据挖掘算法
基于关联挖掘算法利用最小支持度和最小信任度来帮助输出统计上有意义的模式,这里利用支持度和信任度来间接度量模式的趣味性而不涉及任何领域知识,相应的抽象藐视形式定义如下[4]:
其中,I为模式p的趣味度描述,f为结果有序的评估函数,因此可以将概念级信息结合到模式趣味度描述中。假设 为描述一个模式p是否包含指定重要有趣属性的表示方法,具体内容如下:
其中为一个结果有序的评估函数,他首先考虑模式中的属性,然后再考虑相应的支持度和信任度数值。
一个设计记录中属性重要性存在一个偏序关系,有一些属性是描述数据的基本属性,另一些则只提供辅助信息,这些信息由开始时间、源主机、源端口、目的主机、服务目的端口组成,这些都是描述网络数据的基本属性,所要挖掘的关联规则应该是包含这样属性的模式。这里将用于关联规则中项约束的属性成为轴属性(axis),在产生候选项集时,一个项集必须包含轴属性的值,这就潜在地认为有关非轴属性之间的关联描述是没有趣味意义的,也就有
需要指出的是:所有的轴属性,例如,一些网络分析任务需要统计有关网络服务情况,其它一些可能涉及与主机相关的模式。这时就需要能够描述连接服务模式的关联规则包含服务(service)轴属性。
性质1 设一个关联规则AB的支持度为s,而N为所有关于 的清洁规则数目,及规则具有形式:,那么N至少为s的一个指数因子,即有:
其中,L为频繁项集的最大长度,m为数据库的交易记录数。
三、 挖掘算法的使用
考虑合并2个规则左边内容,假设的左边只有1个子集(,),其中在这里代表轴属性,左边也必须只有一个子集(,),而且还必须有:,,。对于要合并的规则左边来讲必须相等或相近,因此合并后规则r的左边为(,),其中比大。若有(service=smtp,src_bytes=200)和(service=smtp,src_bytes=300)的合并,结果为(service=smtp,200≤src_bytes≤300)
以下建立在从LBL到外界连接上的“工作日上午”通信数据的异常检测模型实验情况进行介绍。利用前面所介绍的关联和序列模式的描述,在头三个星期中,可以从每个工作日上午的审计数据中挖掘出有关的模式。然后将这些模式进行合并以产生一个合并规则集。并记下每条规则的合并次数merge_count。图1描述的就是有关对重新审计数据集中所获得的模式进行合并时,规则集的变化情况。很明显规则的总数在不断地增長。如果对新的数据集所产生的新规则进行观察,可以看到,头两个星期中,大部分都与“新”网络服务(规则集以前没有出现过的)有关。而最后一个星期中,大部分都只是有关已有网络服务的新规则。图1说明最后一个星期中规则集的变化率已经下降了。更进一步,如果检查一下频繁规则(用min_frequency=2过滤掉哪些“一次性”的模式),就会发现图中属于所有服务的和个人服务的规则集增长得很慢且趋于稳定。
图1规则数目与审计数据集规模之间的关系
四、结论
本文针对利用型伪装异端数据对IIS型Web服务器访问端口的攻击,采用了数据挖掘的方法对该数据进行检测,利用数据的轴属性分析其信任度及支持度,制定频繁规则,对于不满足频繁规则的规则集进行排除。对建立在从LBL到外界连接上的“工作日上午”通信数据的异常检测模型的实验结果证明了该方法的有效性。
参考文献:
[1]张涛. Web数据挖掘现状分析[J]. 科学之友(B版). 2009(06)
[2]钱雪忠,孔芳. 关联规则挖掘中对Apriori算法的研究[J]. 计算机工程与应用. 2008(17)
[3]徐红,张建喜,朱旭刚,张永军. 一种基于Web日志用户浏览模式的数据挖掘[J]. 信息技术与信息化. 2009(01)
[4]李健,徐超,谭守标. 一种Web数据挖掘系统的设计和研究[J]. 计算机技术与发展. 2009(02)
【关键词】数据挖掘;伪装异端数据;轴属性;挖掘模式
文章编号:ISSN1006—656X(2014)05-0147-01
引言
计算机网络的发展,尤其是互联网的迅速发展与普及,使得基于网络的计算机系统在我们的生活、工作、学习等诸多方间,起着越来越大的作用[1]。但随之而来的各种计算机犯罪,尤其是计算机网络系统的非法入侵,以及基于网络的计算机病毒肆意传播,使得其所造成的危害也越来越大。研究利用数据挖掘技术来帮助进行计算机网络系统入侵检测,以及发现计算机病毒[2]。近年来已成为数据挖掘研究中一个倍受关注的领域。
一、 伪装异端数据的检测
随着基于IIS型Web服务器的计算机系统在现代社会中正在发挥越来越大的作用,这类计算机系统已经成为罪犯的主要攻击目标,因此找到尽可能最佳方法来保护这些系统是非常必要的。随着计算机系统日趋复杂,系统中总是存在设计或编程上的缺陷,从而导致系统存在一些安全漏洞。一般的防止人侵技术,诸如用户认证(利用密码或者生物特让),已经不能满足实际需要。因此需要设计出一个系统框架以便能够使入侵检测系统构造过程半自动化[3]。
二、数据挖掘算法
基于关联挖掘算法利用最小支持度和最小信任度来帮助输出统计上有意义的模式,这里利用支持度和信任度来间接度量模式的趣味性而不涉及任何领域知识,相应的抽象藐视形式定义如下[4]:
其中,I为模式p的趣味度描述,f为结果有序的评估函数,因此可以将概念级信息结合到模式趣味度描述中。假设 为描述一个模式p是否包含指定重要有趣属性的表示方法,具体内容如下:
其中为一个结果有序的评估函数,他首先考虑模式中的属性,然后再考虑相应的支持度和信任度数值。
一个设计记录中属性重要性存在一个偏序关系,有一些属性是描述数据的基本属性,另一些则只提供辅助信息,这些信息由开始时间、源主机、源端口、目的主机、服务目的端口组成,这些都是描述网络数据的基本属性,所要挖掘的关联规则应该是包含这样属性的模式。这里将用于关联规则中项约束的属性成为轴属性(axis),在产生候选项集时,一个项集必须包含轴属性的值,这就潜在地认为有关非轴属性之间的关联描述是没有趣味意义的,也就有
需要指出的是:所有的轴属性,例如,一些网络分析任务需要统计有关网络服务情况,其它一些可能涉及与主机相关的模式。这时就需要能够描述连接服务模式的关联规则包含服务(service)轴属性。
性质1 设一个关联规则AB的支持度为s,而N为所有关于 的清洁规则数目,及规则具有形式:,那么N至少为s的一个指数因子,即有:
其中,L为频繁项集的最大长度,m为数据库的交易记录数。
三、 挖掘算法的使用
考虑合并2个规则左边内容,假设的左边只有1个子集(,),其中在这里代表轴属性,左边也必须只有一个子集(,),而且还必须有:,,。对于要合并的规则左边来讲必须相等或相近,因此合并后规则r的左边为(,),其中比大。若有(service=smtp,src_bytes=200)和(service=smtp,src_bytes=300)的合并,结果为(service=smtp,200≤src_bytes≤300)
以下建立在从LBL到外界连接上的“工作日上午”通信数据的异常检测模型实验情况进行介绍。利用前面所介绍的关联和序列模式的描述,在头三个星期中,可以从每个工作日上午的审计数据中挖掘出有关的模式。然后将这些模式进行合并以产生一个合并规则集。并记下每条规则的合并次数merge_count。图1描述的就是有关对重新审计数据集中所获得的模式进行合并时,规则集的变化情况。很明显规则的总数在不断地增長。如果对新的数据集所产生的新规则进行观察,可以看到,头两个星期中,大部分都与“新”网络服务(规则集以前没有出现过的)有关。而最后一个星期中,大部分都只是有关已有网络服务的新规则。图1说明最后一个星期中规则集的变化率已经下降了。更进一步,如果检查一下频繁规则(用min_frequency=2过滤掉哪些“一次性”的模式),就会发现图中属于所有服务的和个人服务的规则集增长得很慢且趋于稳定。
图1规则数目与审计数据集规模之间的关系
四、结论
本文针对利用型伪装异端数据对IIS型Web服务器访问端口的攻击,采用了数据挖掘的方法对该数据进行检测,利用数据的轴属性分析其信任度及支持度,制定频繁规则,对于不满足频繁规则的规则集进行排除。对建立在从LBL到外界连接上的“工作日上午”通信数据的异常检测模型的实验结果证明了该方法的有效性。
参考文献:
[1]张涛. Web数据挖掘现状分析[J]. 科学之友(B版). 2009(06)
[2]钱雪忠,孔芳. 关联规则挖掘中对Apriori算法的研究[J]. 计算机工程与应用. 2008(17)
[3]徐红,张建喜,朱旭刚,张永军. 一种基于Web日志用户浏览模式的数据挖掘[J]. 信息技术与信息化. 2009(01)
[4]李健,徐超,谭守标. 一种Web数据挖掘系统的设计和研究[J]. 计算机技术与发展. 2009(02)