论文部分内容阅读
随着互联网的高速发展,通信传输能力日新月异,网络移动应用层出不穷,社会生活与网络之间越发密不可分。在网络发展的同时,网络恶意攻击活动如木马程序、蠕虫病毒等也随之升级扩大,在一定程度上影响了广大互联网用户的体验,情况严重时还会给企业造成损失,给社会带来危害,因此网络中的通信安全是如今的中心议题。而在网络安全领域中,协议识别是其他技术工作如漏洞挖掘、入侵检测等的前提基础,对保障网络中通信安全具有重要意义,近年来成为了科研人员的研究重点。现在网络环境中存在大量私有协议,其协议规范尚未公开,传统的协议识别技术都存在一定缺陷。基于端口的协议识别技术需要知晓预定义端口号,而目前的动态端口技术等使得端口不再固定;基于载荷和基于行为特征的协议识别技术需要大量的人力投入,特征统计繁杂。这些因素导致传统的协议识别技术已不满足当前高速便捷的要求。本文针对大规模应用层协议自动化精确识别的需求,借鉴目前较为成熟的深度学习相关方法展开研究,即分类中使用的卷积神经网络和聚类中使用的自编码器,分别构建了有监督的分类模型和无监督的聚类模型。本文详细研究工作如下:1.研究了基于卷积神经网络的协议识别技术,此技术针对的数据对象是已知协议,目标是有监督学习下的协议分类。将协议报文转化为适应于二维卷积神经网络输入的位图格式,交替通过卷积层和降采样层提取深层次特征。实验结果证明对于6种真实网络环境网络中采集到的已知应用层协议,协议识别模型经过训练后,对于测试集的分类准确率可以达到97.30%。2.研究了基于自编码器的协议识别技术,此技术针对的数据对象是未知协议,目标是无监督学习下的协议聚类。通过自编码器中损失函数改进为联合了自编码器重构误差和高斯混合模型聚类中极大似然函数,从而有目标地将原始协议数据降维到对高斯混合模型聚类友好的空间中。实验结果证明对于6种真实网络环境网络中采集到的未知应用层协议,协议识别模型的聚类准确率可以达到91.71%。