论文部分内容阅读
随着网络技术特别是移动互联网的发展,社会日常生产生活已经越来越依赖于网络。与此同时,维护网络空间安全与网络恶意攻击活动之间一直处于相互博弈的过程,木马、计算机蠕虫、拒绝服务等网络攻击越来越频繁,严重影响到人们对网络的正常使用。网络流量识别技术作为网络安全的基础,对保障网络合理运行、维护信息安全具有重要作用。一方面,通过对流量的精准识别可以减少不必要的网络连接,规避网络攻击风险。另一方面,网络管理者通过流量识别能够合理有效地分配网络资源,提供更好的网络服务。网络流量识别技术从互联网诞生开始,伴随着人们网络安全意识的提高,经历了由简到繁的发展过程。为了减少来自防火墙等安全设备不必要的阻断,越来越多的网络应用使用端口复用技术,导致基于预定义端口的流量识别方法已经基本失效。目前广泛使用的基于模式匹配的DPI技术,以及基于流统计特征和机器学习算法的DFI技术,均存在手工标记大量样本和提取识别特征的困难。另外,面对当前大规模的网络数据,网络流量识别的实时性与准确性之间难以达到良好的平衡,采用单一的识别技术已经难以满足当前高速复杂网络的需求。针对上述问题,本文紧紧围绕基于深度学习的流量识别技术展开研究,以传统流量识别技术为基础,借鉴了近年来计算机视觉领域取得的成果,重点研究了网络流量的视觉图像转化方法,基于无监督深度学习算法的网络流量自动化特征提取与识别方法,以及面向高速网络的流量识别系统的设计实现。本文的主要研究工作如下:1.提出了一种新的流量数据图像转化方法。通过对网络应用的通信原理与网络应用流量的特征的分析,重点研究了以手机应用为代表的基于同一种应用层协议的网络应用流量特征,提出了反映视觉特征的流量数据图像转化方法,包括有效数据提取和流量图像转化两个阶段,使计算机按照人类视觉思维去分析与识别流量。在此基础上,通过抓取网络关口的真实流量数据,建立了公开的IMTD17手机流量图像数据集。2.提出了一种基于变分自编码网络VAEN的流量识别方法。研究了深度学习方法中基于自动编码器的无监督特征提取原理,重点分析了变分自编码算法基于概率分布的误差容忍能力。在流量特征自动化提取的基础上,加入多层感知器的非线性拟合以及多类型回归分类,通过无监督特征提取和监督分类识别两个阶段实现了对网络流量图像样本的识别。通过实验说明了模型提取流量特征的能力,验证了模型识别应用流量的准确性。3.提出了一种基于二维卷积感知网络2D-CPN的流量识别方法。研究了基于卷积网络的卷积自编码算法,设计了具有视觉特征提取能力的卷积感知网络模型。通过卷积网络将原始流量图像的二维特征转化为高维的特征表示,同时保留输入图像的局部相关性,实现图像特征权值的全局共享。利用多层感知器建立从流量图像的卷积特征到编码器隐层特征的映射,从而实现流量的识别分类。4.设计并实现了一个面向高速网络环境的流量识别系统,以最大化地满足流量识别的实时性和准确性要求。给出了系统的整体方案设计与总体实现方法,利用分层和模块化的思想对系统内各个功能模块进行了详细的阐述。然后分别针对主机应用、手机应用和恶意程序流量多个情景进行了系统测试分析。测试结果表明,该系统能够满足高速网络的关口处进行实时检测的需求,具有在实际网络中较好的实用性。