论文部分内容阅读
因特网是一个庞大的、持续变化的对象,其异质性、复杂性和动态性为因特网的研究带来了许多挑战。尤其在近十年,因特网的发展经历了一个快速成长的阶段。在这个阶段,用户数取得了爆炸式增长,高容量骨干及宽带接入技术逐步成熟并被大规模部署,新应用的层出不穷和已有应用的持续演变等,这一切都使得因特网流量更加复杂。深入了解因特网流量特性,积极探索因特网行为变化对于因特网流量建模、网络运行维护管理、网络安全及流量工程等均具有重要意义。另外,在因特网发展的新形势下,基于端口(port)和载荷(payload)的传统流量分类方法的局限性已凸现,迫切需要一种新型的、有效的流量分类方法,为因特网业务的QoS保证、网络异常检测等提供支撑。本文就是在这一背景和挑战下开展因特网流量行为分析及应用流量分类的研究工作。本文在研究中主要使用的是近四年来(2005-2008)在校园网上收集的流量数据,认为由于校园网规模较大,用户群体又多为学生,网络应用具有多样性,其网络流量较为典型,能够在一定程度上反映因特网流量的复杂性和动态性。
本文首先描述了在cernet(中国教育科研网)的一条接入链路上设立监测点(monitoredpoint)并进行双向的“被动测量”,从网络负载和TCP连接的性能两个角度宏观调查了当前因特网流量模式及特性,其中不仅有单天的日流量模式及特性,还有长达18个月(2006.10-2008.03)的长期流量模式及特性的变化趋势,列举并讨论所观测到的一些主要现象及可能的产生原因。
接着,又从“流”(flow)的角度微观剖析了分属于这四年不同时段的流量数据,分别从流的统计特性和主机行为两个方面对“单向流”和“双向流”深入讨论,展示了它们之间的差异性以及在这四年间的变化。还提出了“流量剖面”(trafficprofile)的概念,并分别创建了“单向流”和“双向流”主机的流量剖面。这不仅为本文的研究提供帮助,也为以后有关主机行为的研究提供了有力工具。
最后,本文提出一种新的、将多分类模型下的集成学习与协同训练相结合的流量分类方法,它使用基于流的统计特性作为特征。与过往在许多研究中被广泛使用的单分类器方法相比较,这种方法主要克服了三个局限性:性能瓶颈、弱适应性以及标记样本需求量过大。实验结果表明:采用本方法后分类的错误率较传统机器学习方法有明显下降;在不同网络环境下适应性显著提高;能识别更多原先未知的流量,并且具有区分未知应用类型的能力。