论文部分内容阅读
随着互联网络的日益发展和普及,网络流量数据正以惊人的速度增长,它在给人们带来方便的同时,也面临着如何有效地对这些海量数据进行分析,以提高互联网络服务质量以及促进互联网更快、更好的发展。这篇论文主要研究基于机器学习方法的网络流量分类以及相关技术。包括网络流量数据采集、特征产生、样本标识、特征选择,以及应用机器学习方法对网络流进行分类等技术。在基于机器学习方法的网络流量分类研究中,网络流量样本,包括训练样本、测试样本的获取是非常重要的一步。首先我们通过Sniffer的方法捕获网络报文,然后将采集到的报文按五元组进行分类为流,再结合Packet-Level和Flow_Level两个层面上的信息,在报文属性(大小、个数、时间、标志位)、流的属性(时间)上做了认真的分析和研究,产生了37个网络流量统计特征,形成了表示网络流的特征向量。在网络流量样本的标识上我们结合了基于端口、基于有效载荷,协议分解等多种方法,实现了样本的自动标识系统,标识的正确率高。在特征选择方面,运用特征距离以及遗传算法进行综合选择,这种方法可以有效地找到较好的遗传算法的初始群体。从而能在较少的迭代次数当中找到较优的特征子集,实验结果表明提出的方法可以减少特征的数量,减少学习和分类的时间,同时还因去掉不相关或冗余特征,提高了分类的准确性。在基于机器学习的分类研究中,运用了六种不同的机器学习方法,对常见的网络流量应用类型进行了分类研究,并给出了实验结果,实验结果表明基于机器学习方法的网络流量分类可以避免传统网络流量分类方法的缺陷,能够很好地分类那些采用动态端口或者协议加密的网络应用流量类型。在上述研究的基础上,设计并实现了基于机器学习方法的网络流量分类系统(Traffic Classification System Based on Machine Learning , TCSBML),系统包含网络流量数据采集、网络流量数据分析以及分类等几大功能模块,具有一定的实用价值。