论文部分内容阅读
随着加密技术在网络空间中迅速普及,其产生的加密网络流量作为网络信息的载体也处于急速增长中。加密技术虽然通过密文通信保护了网络信息安全传输,但同时也让攻击者可以利用加密技术的隐蔽性来逃避传统基于明文网络流量分析的安全检测手段,从而带来了不可忽视的网络安全威胁。因此如何有效地对加密网络流量进行分析成为了一个亟待解决的问题。本文结合异常流量识别和应用流量识别两类场景对加密网络流量分析关键技术进行研究,且本文首次将LightGBM算法应用于其中并取得良好效果。基于对异常流量识别方法和应用流量识别方法的研究,提出了加密网络流量识别方案MGST-ETA,该方案不仅可以高精度、高效地识别异常流量和应用流量,而且还能在识别过程中保护用户隐私。针对异常流量识别,本文首先在数据包负载粒度、网络流行为粒度和会话连接信息粒度上对异常流量的数据特性进行分析;然后基于LightGBM算法提出了针对异常和正常流量的二分类器以及恶意软件族多分类器。通过多次实验确定了具备良好识别精度的流量粒度特征集。接着通过对比实验验证了LightGBM在算法层面上可以有效抵抗非平衡数据集带来的分类器查准率失衡问题。同时,本文在数据层面上使用Borderline SMOTE-2算法对非平衡数据集进行优化,优化后平均查准率提升了6.16%。针对应用流量识别,本文首先对不同应用类型的网络流量在时域和频域上进行流量特征分析,并结合伴随流量特性分析提取了混合粒度时空特征集。然后提出了LightGBM-Boruta特征选择算法和基于LightGBM的多层次分类器算法。实验结果表明,该分类器算法在公开的流量数据集上取得了与当前最优方法相当的识别精度,其平均查准率达到了91%以上,并且该方法还可以精细化识别应用流量中的未知应用类型和具体应用程序类型。基于前文的研究内容,提出了基于多粒度时空特征的加密网络流量综合识别方案MGST-ETA,方案中设计并实现了基于镜像交换机的流量采集系统、基于多线程并行架构的预处理工具以及基于上述两种分类器算法的流量识别服务,提供了流量分析结果可视化功能。最后,在校园网环境中进行了方案部署与测试,测试结果表明,本文的方案在异常识别和应用识别任务中具有高检出率、低误报率和低漏报率的表现;与典型的加密网络流量分析方案相比,本文方案具有通信会话早期检测、细粒度识别等特点。