论文部分内容阅读
互联网承载着越来越多的业务应用,其巨大信息流成为社会发展的强劲动力,但是也给互联网管理和安全带来多项挑战,主要表现为带宽资源不好管、网络安全不易控、网络计费不公平等。目前互联网管控方式从基于带宽和流量的粗旷式方法发展到基于网络应用类型的精细化方法。为此,互联网流量识别与分类成为网络研究的一个重要方向,其主要功能是从大量流量中识别出特定应用的IP报文,例如WWW、P2P(Peer-to-Peer)、异常攻击等,从而为多项网络管理活动提供决策支持,例如管制P2P流量、保障交互型应用的服务质量和拦截异常流量等。互联网流量分类技术随着网络应用技术的发展而不断演进。基于端口号映射和载荷特征字段匹配的传统流量分类方法非常成熟,已广泛应用于实际系统中。但是,因动态端口号、端口伪装技术和载荷加密技术等的广泛应用,这些传统流量分类方法逐渐失效。基于机器学习的流量分类方法富有应用前景,吸引了大量研究。但是,此类方法仍然面临多项挑战,包括类不平衡、概念漂移等,导致小类(例如交互型应用)的分类性能难以得到保障。为此,论文提出一种面向类不平衡和概念漂移的互联网流量分类框架,其包括了应对类不平衡和概念漂移问题的子模块。并随后围绕这两个问题展开互联网流量分类方法的研究,其主要目标是能在动态变化的流量数据上提高小类的分类性能。论文的主要创新和工作内容如下:(1)互联网流量的微调重采样方法。在互联网流量数据中,某些网络应用类别(大类)产生大量的网络流,而某些应用类别(小类)产生的流数目相对较少。分类器往往偏向于有效分类大类流样本而忽略小类流样本的分类性能,但是小类的分类性能也相当重要。论文首先分析流量数据的不平衡特性,然后提出一种微调重采样方法,1)在训练集上根据原始数据分布进行随机重采样,获得一个初始训练集;2)在训练集上训练分类器,并在剩余训练集上测试分类器的分类性能;3)在剩余训练集上,为困难小类采样一定数目的流样本,将其并入初始训练集,从而微调式增加困难小类的训练样本,并强化小类样本的学习;4)步骤2)和3)循环执行,达到终止条件为止。其中,为避免噪声对分类性能的影响,借助PAC(Probably Approximately Correct)理论,估算每次迭代的待采样数目。实验结果表明此方法能缓解类不平衡,提高小类分类准确率,并同时不严重损害大类的分类性能。(2)基于数据清理的流量分类方法。网络管理活动的处理对象通常是IP报文(比如拦截P2P报文),这和字节信息密切相关。但是大多流量分类器以高的流分类准确率为优化目标,加上流量数据面临字节数的不平衡(大流数目远少于小流数目),导致字节分类准确率较差。针对此问题,论文首先分析与低字节分类准确率相关的因素,然后提出一种基于数据清理的流量分类方法。在数据清理处理过程中,利用启发式规则删除位于决策边缘的大类的小流样本,目标是缓解边缘复杂度和字节数不平衡。此方法能在基本不影响各应用类别流分类准确率的情况下,显著提高总体字节分类准确率。(3)基于单类概念漂移探测的流量分类框架。大量研究表明,流量分类方法在静态环境下能获得高的总体分类准确率。但是,随着网络应用更新或者用户习惯改变,互联网流量数据的应用类型、各应用流的统计特征都在持续动态变化,当前流量数据上训练的分类器不一定适合分类未来的流量数据,即存在概念漂移问题。为此,在真实流量数据上,实验分析流量数据的概念漂移情况,发现小类流量更易发生概念漂移。传统概念漂移探测方法仅基于总体分类性能,不能及时探测到小类的概念漂移。针对此问题,论文提出基于单类概念漂移探测的流量分类框架,此框架首先在静态训练集上训练初始分类模型;然后在分类流量数据过程中检查单类错误率是否有显著增加,进而探测每个类别上的概念漂移,并在探测概念漂移过程选择新的训练样本;最后依据概念漂移探测结果和新的训练样本集触发分类器更新。实验结果显示该框架能及时更新分类器,保障了多个小类类别的分类性能。(4)基于信息熵的异常流量识别方法。论文前几部分的研究提高了多个小类的分类准确率,但是在真实流量数据上的实验结果发现,异常流量行为复杂、动态多变且流样本数量不充分,使得此小类流量的分类性能难以获得显著提高,需要进一步分析异常流量独有且稳定的特性,并从新的角度设计异常流量识别方法。在流量数据上的分析发现,异常流量中很大一部分是单向流,即互联网背景辐射流量,通常是由网络扫描、恶意攻击或错误配置行为所致;进一步分析流量来源分布发现,不活跃主机(只接收到单向流的主机)的流量来源分布随机性与普通活跃主机存在显著差异。基于这两方面的分析结果,提出一种异常流量识别方法。首先基于信息熵提出流量来源的随机性程度评估指标和流量来源是否均匀分布的探测算法,据此识别出不活跃IP和恶意源IP;然后结合通信行为模式提出异常流量识别方法。在IPv4基准数据集上,此方法可获得99%的异常流量识别精确率。识别出的异常流量可以弥补其流样本的不足,或者从中提取新的流统计特征用于改进分类器,这些都有利于推进异常流量分类性能的提高。