论文部分内容阅读
随着互联网技术的快速发展,新的应用类型(如FTP、DNS、P2P等)不断涌现,特别是一些采用非标准端口和协议加密形式进行通信的应用的出现,使得传统的基于端口和基于有效载荷的网络流量分类方法效率降低。这激发国内外很多研究者以应用类型作为类别,以网络中通信时所产生的流的统计特性作为特征,运用机器学习来进行网络流量分类研究。这篇论文也是采用机器学习方法研究网络流量分类以及相关技术。包括网络流量数据采集、特征产生、样本标识、特征选择,以及应用机器学习方法对网络流进行分类等技术。在基于机器学习方法的网络流量分类中,网络流量样本,包括训练样本、测试样本的获取是非常重要的一步。文章首先通过校园网络的中心交换机端口映射方法捕获网络报文,然后将采集到的报文按五元组(源IP地址、源端口号、目的IP地址、目的端口号、协议)解析为流,并统计报文大小、个数、时间、标志位等特征,形成了代表网络流的特征向量。最后结合基于端口、基于有效载荷和协议等多种方法,实现样本的自动标识,形成流样本,采用该方法进行标注正确率高。在特征选择方面,文章使用基于主成分分析(Principal Component Analysis,简称PCA)和基于信息增益等两种特征选择方法对两个数据集的候选特征集进行了特征优选,并得到了各自的最优特征子集。实验结果表明提出的方法可以减少特征的数量以便减少学习和分类的时间,同时还可以去掉不相关或冗余特征,提高分类的准确性。最后,文章应用DBSCAN(Density Based Spatial Clustering of Application with Noise)和K-Means两种聚类算法对经过特征选择的网络流进行聚类分析,根据聚类结果产生基于聚类分析的网络流量分类规则,并构建基于聚类分析的网络流量分类器。用实验结果验证了所提出和使用的方法对网络流量分类的有效性和可行性,达到了较高的查准率和总准确度;而且实现简单,算法效率高,是很好的网络流量分类研究方法,具有很强的研究意义和实用价值。