论文部分内容阅读
网络被动测量研究的主要目的之一是对各种流特性的测量和估计。在高速网络下,现有的硬件和技术难以对网络流量中的每个分组信息进行测量,所以必须对测量的数据进行删减,抽样是最常采用的数据删减方法。已有的研究大都集中在流抽样(Flow Sampling)方向上,即在分组数据采集时对分组进行流聚类后再按照某些规则进行抽样,这些抽样方法往往针对的是某一类的流特性测量,不具备应用上的可扩展性。另一方面,这些抽样方法实现时需要网络设备较高的运算资源和存储资源,因此没有得到大规模的商业应用。目前,网络被动测量中主流数据采集方法仍然是分组抽样(Packet Sampling)。因此,本论文研究方向是:网络分组数据通过分组抽样后,根据样本中所包含的协议信息,研究各种流特性度量的测量和估计算法,以提高分组抽样下网络测量的可扩展性。本论文的工作主要包括以下几个方面内容:1)流大小分布是网络流量工程和网络监控方面一个重要的测量度量,是近年来网络测量研究的热点方向。已有的研究表明,通过随机分组抽样到的样本中包含的协议信息,能够有效地改善流大小分布的估计。本文在已有的研究基础上,提出了一种在样本流中同时运用SYN包和SEQ信息的估计方法(ALL-PS+SYN+SEQ),并与其它4种利用TCP SYN包和TCP序列号进行流大小分布估计算法进行比较。为了评估这几种算法的精度,用Fisher信息量计算这几种估计方法的方差下界(即C-R下界)。C-R下界的计算结果和实验结果表明,ALL-PS+SYN+SEQ估计算法效果最佳。2)在流大小分布实际应用中,我们往往关心的是小流准确的分布,而大流只需知道一定范围内的分布情况。因此我们在利用TCP协议信息改善流大小分布估计的基础上,提出了非均匀粒度流大小分布,对小流采取细粒度的估计,对大流采取粗粒度的估计。这样做的好处是既减少了估计算法的计算量,又提高了粗粒度后大流估计精度。3)在网络应用中,有时会更关注总体流量中某个子群体的流大小分布。本文提出了一种随机分组抽样下运用TCP协议信息的任意子群体流大小分布估计算法。实验证明,该算法通过运用TCP协议信息,提高了子群体流大小分布的准确性,并还原了不同应用的流大小分布特征。4)流字节大小是网络测量中最常用的的度量,已有的大多数研究大都集中在通过改进抽样算法,来提高流字节大小估计的准确性。本文提出了一种在简单随机分组抽样下流字节大小估计算法,该算法在运用TCP协议信息对流分组大小进行估计的前提下,然后根据线性回归模型来估计字节大小分布。通过实验,该估计算法能够较准确反映了原始流字节大小的分布特征。5)端口扫描检测是最常见的网络异常行为,TRW是最具代表性的端口扫描检测算法之一。已有的研究表明分组抽样对原始流的流大小分布有细化的作用,使得TRW检测算法随着抽样率的增加,成功检测率Rs和误检率Rf+呈现出先增加后减少的趋势。本文通过利用样本流中的TCP序列号信息,提出一种TRW的改进算法。通过实验验证,改进算法在相同抽样率下成功检测率Rs保持不变的情况下,误检率Rf+明显降低了。