论文部分内容阅读
【摘要】 VoIP是用lP数据包代替传统的电路交换进行语言数据传输的一种技术。随着这种技术日益广泛的应用,带来了一些新的安全问题,必须进行有效的识别。本文通过分析VoIP数据包的特性,给出了两个基于网络流量行为的统计特征,从而可以对Voip语音通讯进行有效识别。
【关键字】 VoIP Skype 流量识别
一、引言
VOIP是一种网络应用,它利用分组交换网络传输语音数据包。传统的语音数据是通过电路交换网进行传输的,电路交换网虽然可以提供更可靠通讯,但成本更昂贵。而利用分组交换网进行声音数据,成本更低,同样也能提供比较可靠的通讯。现在有很多VOIP软件,其中应用比较广泛的是Skype。在越来越广泛应用的同时,VOIP也严重增加了网络营运的设备负荷,同难于管理。要对其进行控制,必须要对它的流量进行监测。
二、传统的流量识别方法
当前Internet中的流量依据应用的不同可以分成不同类别。传统的流量识别方法,大概分为三种:1、基于端口的流量识别方法;2、基于字符特征的流量识别方法;3、基于协议流程分析的流量识别方法。流量识别技术有如下要求:准确性、实时性、可扩展、健壮性。如何在这四个要求之间做到有效的权衡是流量识别方法研究要解决的问题。
三、基于数据包大小的概率分布特征
基于网络流量行为的特征,进行VOIP的流量识别,应该是一种可行的方法。所谓网络流量行为,就是指流量的一些主要要素所表现出来的相似性,或者稳定性。比如,流量的数据包大小固定在某一范围内,再比如流量数据包大小,随着时间的推移,有个明显的变化等。这些都是流量行为的特征。voIP的数据包,数量巨大,用统计的方法对其网络流量行为进行分析,应该是一个可行的方法。首先,每个数据包都有一些特性,包长,包到达时间等,其次数据包之间也有一些关联特性,如包长的变化,前后两个数据包的到达时间间隔等。根据这些特性,就可以不考虑数据包的负载数据的内容,不通过字符特征进行分析,直接对这些特性进行分析,这样可以显著地提高识别的速度。当抓取了一系列数据包后,数据包的大少的分布就确定了,根据这可以对这些数据包进行分析。首先,数据包负载的大小必定大于等于O。而且,根据IP数据包的特性,其最大长度理论上为65535,但一般上远小于这一数值,一般小于1500字节。由于,skype主要使用UDP包进行传输语音数据,所以这里先对UDP包进行分析。对十次skype通话进行抓包,得到五组UDP包,用a,b,c,d,e代表这五组数据。为了便于观察,先划分出以下区间[0,40),[40,50),[50,60),[60,80),[80,100),[100,130),[130,150),[150,200),[200,250), [250,300),[300,350),[350,400),[400,512),[512,+∞)?skype的包长都处于这些区间中。skype通话的UDP数据包在包长分布上有比较相似的特性:主要为包长在[130,150),[100,130)这连个区间的数据包;而在[40,50)这个区间的数据包,是在skype通话双方静音时产生的,数量也比较巨大。
每一个到达的UDP数据包,其大小都是随机的,而且为大于28,小于65535的整数。这样,数据包的抓取,可以看作随机试验E,事件Ai为抓到的IP数据包大小为i,所以随机试验E有A0到A65535,共65536个事件。事件Ai出现的概率为Pi,所以有以下等式(1):
事件Ai的概率如何确定?每抓到一个数据包,就可以认为完成了一次随机试验E,当抓了N次数据包,就认为完成了N次随机试验E。在这N次随机试验中.ni表示事件Aj在这N次试验中出现的次数,所以 为事件Ai出现的频率,当N比较大时,该频率就趋于稳定,我们就认为 是事件Ai的概率Pi,即公式(2):
由以上分析可知,数据包的大小为一离散随机变量X,其取值范围为大于等于0,小于等于512的整数。随机变量X的概率分布为公式(3):
所以,必须分别统计出大小为x的数据包的个数,然后再计算X=x时的概率
四、结束语
本文从网络流量行为的角度得到了SKYPE的两个特征,都是根据数据包的统计数据进行分析的。对其它的VOIP应用,我们也可以同样提取出它们的数据包包长的概率分布特征,从而对这些VOIP流量进行识别。
【关键字】 VoIP Skype 流量识别
一、引言
VOIP是一种网络应用,它利用分组交换网络传输语音数据包。传统的语音数据是通过电路交换网进行传输的,电路交换网虽然可以提供更可靠通讯,但成本更昂贵。而利用分组交换网进行声音数据,成本更低,同样也能提供比较可靠的通讯。现在有很多VOIP软件,其中应用比较广泛的是Skype。在越来越广泛应用的同时,VOIP也严重增加了网络营运的设备负荷,同难于管理。要对其进行控制,必须要对它的流量进行监测。
二、传统的流量识别方法
当前Internet中的流量依据应用的不同可以分成不同类别。传统的流量识别方法,大概分为三种:1、基于端口的流量识别方法;2、基于字符特征的流量识别方法;3、基于协议流程分析的流量识别方法。流量识别技术有如下要求:准确性、实时性、可扩展、健壮性。如何在这四个要求之间做到有效的权衡是流量识别方法研究要解决的问题。
三、基于数据包大小的概率分布特征
基于网络流量行为的特征,进行VOIP的流量识别,应该是一种可行的方法。所谓网络流量行为,就是指流量的一些主要要素所表现出来的相似性,或者稳定性。比如,流量的数据包大小固定在某一范围内,再比如流量数据包大小,随着时间的推移,有个明显的变化等。这些都是流量行为的特征。voIP的数据包,数量巨大,用统计的方法对其网络流量行为进行分析,应该是一个可行的方法。首先,每个数据包都有一些特性,包长,包到达时间等,其次数据包之间也有一些关联特性,如包长的变化,前后两个数据包的到达时间间隔等。根据这些特性,就可以不考虑数据包的负载数据的内容,不通过字符特征进行分析,直接对这些特性进行分析,这样可以显著地提高识别的速度。当抓取了一系列数据包后,数据包的大少的分布就确定了,根据这可以对这些数据包进行分析。首先,数据包负载的大小必定大于等于O。而且,根据IP数据包的特性,其最大长度理论上为65535,但一般上远小于这一数值,一般小于1500字节。由于,skype主要使用UDP包进行传输语音数据,所以这里先对UDP包进行分析。对十次skype通话进行抓包,得到五组UDP包,用a,b,c,d,e代表这五组数据。为了便于观察,先划分出以下区间[0,40),[40,50),[50,60),[60,80),[80,100),[100,130),[130,150),[150,200),[200,250), [250,300),[300,350),[350,400),[400,512),[512,+∞)?skype的包长都处于这些区间中。skype通话的UDP数据包在包长分布上有比较相似的特性:主要为包长在[130,150),[100,130)这连个区间的数据包;而在[40,50)这个区间的数据包,是在skype通话双方静音时产生的,数量也比较巨大。
每一个到达的UDP数据包,其大小都是随机的,而且为大于28,小于65535的整数。这样,数据包的抓取,可以看作随机试验E,事件Ai为抓到的IP数据包大小为i,所以随机试验E有A0到A65535,共65536个事件。事件Ai出现的概率为Pi,所以有以下等式(1):
事件Ai的概率如何确定?每抓到一个数据包,就可以认为完成了一次随机试验E,当抓了N次数据包,就认为完成了N次随机试验E。在这N次随机试验中.ni表示事件Aj在这N次试验中出现的次数,所以 为事件Ai出现的频率,当N比较大时,该频率就趋于稳定,我们就认为 是事件Ai的概率Pi,即公式(2):
由以上分析可知,数据包的大小为一离散随机变量X,其取值范围为大于等于0,小于等于512的整数。随机变量X的概率分布为公式(3):
所以,必须分别统计出大小为x的数据包的个数,然后再计算X=x时的概率
四、结束语
本文从网络流量行为的角度得到了SKYPE的两个特征,都是根据数据包的统计数据进行分析的。对其它的VOIP应用,我们也可以同样提取出它们的数据包包长的概率分布特征,从而对这些VOIP流量进行识别。