论文部分内容阅读
随着互联网的不断深入发展,网络速度的快速提高,规模的逐渐扩大以及用户需求的日益增多,出现了许多新型的网络应用程序,这些新型应用程序呈现出结构复杂、协议多变等特点,具有比传统应用程序更加复杂的网络流量和模式。这些新特性给网络管理员在对因特网上的流量进行识别和控制时带来了许多新的问题和困难。目前大部分流量识别技术主要采用特征匹配来识别网络流量,这种方式的优点是速度快,识别的准确率高,但缺点是不能识别未知的网络流量,而且通过人工编写应用层特征码的方式来更新特征库,编写效率很低,很难应对层出不穷的新型网络应用模式。而关联规则挖掘技术善于从大量的数据里提取有用的规则。显然采用关联规则挖掘技术来辅助安全专家提取应用层特征是一个很好的办法。基于这个方案,本文提出了一种利用关联规则挖掘技术从IP流量载荷中提取应用层特征码的方法来研究和设计流量识别系统。本文首先分析了从事网络流量识别研究的现实意义以及国内外对流量识别的研究现状,并比较了几个常用流量识别方法的优缺点;然后研究了数据挖掘技术的功能和特点,展示了几种数据挖掘的分析方法;接着阐述了在本课题中如何使用Apriori算法来提取应用程序特征码,Apriori算法主要用于关联规则挖掘,在本课题中主要是利用其挖掘频繁项集的方法来提取候选特征码;最后详细给出了流量识别系统的设计与实现过程,同时给出实验结果,结果表明这种方法准确率和有效率都非常高,可满足实际网络应用中的需求。