论文部分内容阅读
随着网络规模的不断扩大和各类网络应用的持续发展,互联网已经成为人类生产生活不可或缺的基础设施。与此同时,各类网络攻击活动也日益猖厥,给网络空间安全造成了巨大隐患,例如,拒绝服务攻击、计算机蠕虫、勒索病毒等。网络流量异常检测作为一种有效的网络防护手段,能够检测未知攻击行为,并为网络态势感知提供重要支持,近年来受到研究者越来越多的关注。迄今为止,国内外学者已经提出了很多不同类型的检测方法。其中,基于网络流量分类的方法是其中很重要的一类。但是,目前大多数网络流量分类方法都是基于传统的机器学习方式,分类性能非常依赖于流量特征的设计。如何设计一组能够准确刻画流量特性的特征集,需要大量的人工经验和特征工程技巧,仍是一个尚未解决的问题。近年来,深度学习在计算机视觉、语音识别、自然语言处理等多个领域都取得了优异的成果,也为网络流量分类及异常检测的发展带来了新的契机。本文基于深度学习的方法对上述问题展开研究,主要研究工作和创新如下:1.基于表征学习的恶意流量分类方法:针对基于传统机器学习的恶意流量分类方法的特征依赖问题,提出了一种基于表征学习的恶意流量分类方法。与以特征工程为主的传统机器学习方法不同,该方法不需要人工提取和选择网络流量的特征集,而是直接将原始流量作为深层神经网络的输入数据,流量数据表征学习的整体过程都由深层神经网络完成,可节省大量的特征工程工作量,降低了任务的复杂度。通过多项实验确定了性能最优的网络流量表示形式为带有全部协议层的双向通信的网络流数据。在具有三类分类器的两种应用场景下进行了实验验证,实验结果表明,该方法在精度、查准率、查全率和F1值等多个方面可满足实用化需求。2.基于一维CNN的端到端的加密流量分类方法:针对基于分治策略的加密流量分类方法难以获取全局最优值的问题,提出了一种基于一维CNN的端到端的加密流量分类方法。该方法将特征提取、特征选择、分类器等多个分步骤整合在一个端到端的框架内,实现了自动学习从原始输入到期望输出的非线性关系,更大可能地获得全局最优值。本文使用一维卷积神经网络作为端到端的框架,比常用的二维卷积神经网络更加适合网络流量的一维序列特性。实验结果表明,该方法在公开的加密流量数据集上取得了优异的表现,在4类实验场景下的12项实验结果对比中,该方法的11项结果都优于基于分治策略的通用方法。尤其是在VPN加密流量的分类方面,本文提出的方法将查准率和查全率都提高了约10%。3.基于两阶段LSTM的网络流量分类方法:针对目前使用深度学习的网络流量分类方法没有充分利用网络流量的结构化信息的问题,提出了一种在数据包和网络流两个层次上使用两阶段LSTM的网络流量分类方法。该方法分别使用双向LSTM分阶段地学习数据包和网络流的特征,得到比较综合全面的时序特征后再进行分类,实现更加准确的网络流量分类效果。该方法充分考虑了网络流量的内部结构组织关系,有效利用了 LSTM优秀的时序特征学习能力。实验结果表明,该方法在公开的流量数据集上取得了良好效果,在精度、检测率和误警率等多项性能指标的比较中,大部分都超过或持平了目前使用手工设计特征的通用方法。4.基于层次化时空特征学习的网络流量异常检测方法:针对目前网络异常检测领域的特征依赖和高误警率等两个普遍存在的问题,提出了一种基于层次化时空特征学习的网络流量异常检测方法HAST-NAD。该方法使用CNN学习网络流量的下层空间特征,使用双向LSTM进一步学习网络流量的上层时序特征。上述特征学习过程由深层神经网络自动完成,无需任何特征工程技术,有效避免了手工设计特征带来的特征不准确等问题。同时,自动学习到的特征也有效地降低了误警率。在两个公开的网络流量数据集DARPA1998和ISCX2012上的实验结果表明,HAST-NAD在取得较高检测率的同时保持了较低的误警率。尤其是对于DARPA1998数据集,该方法在综合反映检测率和误警率的有效率指标上比基于特征工程技术的MARK-ELM方法提高了约24%。上述方法已部分应用于中科院先导课题“海量网络数据流海云协同实时处理系统(编号:XDA06011203)”和“未来网络架构研究与边缘设备研制(编号:XDA06010302)”。