论文部分内容阅读
随着互联网的快速发展,基于网络的各类应用越来越丰富,企业纷纷通过网络来拓展自身的业务范围。不断涌现的新型网络应用对网络带宽提出更多需求,网络性能备受关注。为了缓解网络资源与服务质量之间的矛盾,通过对网络流量进行深入分析,进而合理分配有限的网络资源成为当前研究的热门问题。传统的网络流量分析主要采用了数理统计方法,不能适应当今网络各种复杂应用的情况。为此,本论文结合网络流数据的特点,将流数据挖掘理论引入到网络流量分析当中。繁杂的网络流数据往往是各种网络应用在使用过程中的一种融合过程,从中发掘出各种应用的联系,找到频繁出现的各种网络流量就能直观地掌握网络的运行状况,从而为网络管理和资源分配提供依据。本文主要完成了如下工作:(1)研究网络流量的形成模式及其特点,讨论典型网络流的区别和分类方法。分析目前网络流量分析方法的主要特点,重点讨论流数据挖掘理论在网络流量分析中应用的可行性。(2)分析多种频繁项集挖掘算法以及多层次关联规则挖掘技术,针对传统算法在时间和空间复杂度过大不适合流数据挖掘的不足,融合滑动窗口与衰减窗口两者的优点,提出一种基于字典顺序前缀树LOP-Tree的频繁项集挖掘算法STFWFI,有效降低了频繁项集挖掘的时间和空间复杂度。提出一种基于统计分布的节点权值计算方法SDNW,提高了网络流节点的估值精度。基于以上频繁项集的挖掘结果,采用多层次关联规则的挖掘方法对网络流量应用的关联规则和网络流量负载的相关性进行分析。(3)在Windows平台下利用网络开发包Winpcap进行网络流数据的采集处理。基于数据挖掘开源平台Weka上实现分析模型中核心挖掘算法,并完成原型系统。通过挖掘频繁的网络流,生成符合分析目标的多层次关联规则,计算各类网络流之间的负载相关性系数,从而验证论文理论方法的有效性。