论文部分内容阅读
在面对多类不平衡网络流量时,基于机器学习的流量分类方法往往因为更注重总体分类精度,忽视了对少数类的分类性能。虽然目前已有许多针对不平衡问题的重采样算法,但是这些算法主要针对两类不平衡问题,难以直接适用于流量分类中复杂的多类不平衡情况,并且这些算法侧重于解决类间数目不平衡问题,对网络流量中可能存在的内在不平衡特性也缺乏充分的考虑。另一方面,在对不平衡数据进行分类时,典型集成学习算法Adaboost.m2也不可避免被多类不平衡问题所影响,算法的整体分类能力受限。本文针对上述问题,提出解决网络流量分类中多类不平衡问题的重采样算法和提升Adaboost.m2对多类不平衡网络流量分类性能的改进算法。具体工作如下:(1)从表象不平衡和内在不平衡两个角度对因特网流量数据进行深入分析。在表象层面,着重分析流数目不平衡特性和字节不平衡特性;在内在层面,通过流量的特征空间分布,研究其潜在的类内子概念、样本重叠和噪声问题。最后,结合实验与分析,研究类不平衡特性与网络流量分类性能的相关性。(2)在重采样算法层面,设计一种启发式多类混合采样算法HMMS(Heuristic Multiclass Hybrid Sampling),该算法从类间不平衡和类内不平衡两个角度,首先通过人工合成新样本对少数类进行过采样,然后针对类内多子概念、样本重叠和样本噪声问题对多数类进行聚簇式的启发式欠采样以构造平衡的数据集。实验对比结果表明该算法不仅有效提升了分类器对于大部分少数类的流F-Measure,还在保证总体流分类准确率的前提下,明显提高了总体流G-Mean和总体字节G-Mean。(3)在集成学习算法层面,提出一种改进的Adaboost.m2算法RBWS(Random Balance Sampling Based on Weighting)-ADAM2(Adaboost.m2),该算法在Adaboost.m2每次迭代过程中,设计了基于权重的随机平衡重采样策略对训练数据进行预处理,以缓解数据不平衡对于少数类分类性能的影响,提升算法的整体泛化能力。实验结果表明,该算法不仅对部分少数类的流F-Measure有较大提升,更有效提高了集成分类器的总体流G-Mean和总体平均流F-Measure,明显增强了集成分类器分类多类不平衡网络流量的整体性能。(4)基于本文提出的RBWS-ADAM2算法,设计并实现了网络流量分类系统,在抓取网络流量并进行数据处理、训练和分类的基础上,实现完整的流量分类功能。将系统运行于实际的网络环境,并与Adaboost.m2算法对比,验证结果表明该网络流量分类系统具有较高的实用价值。