论文部分内容阅读
随着全球网络信息化脚步的加快,各个企业、机构数据也在向网络化、数字化靠拢,但也给了非法技术人员监控企业、机构以及获取私有数据的机会。另外,攻击者往往会针对攻击目标插入特定后门、木马或者其他监控软件,以达到对企业、机构长期控制的目的。目前常用的恶意软件有Gh0st、DarkComet、Hupigon等,而在APT攻击中,为了更加隐蔽,攻击者往往会对恶意软件进行改进,使得恶意软件变种越来越多。目前对恶意软件的检测往往采用特征码匹配、以及直接采用静态流量信息结合机器学习进行分类,很难应对日渐增多的变种APT恶意软件。对于上述问题,本文通过研究最新的恶意软件检测方式,提出一种恶意软件流量检测以及区分恶意流量属于哪种恶意软件的方法。主要研究内容及创新点如下:1.首先对APT恶意软件流量进行特征提取及差异性分析,本文提取了流量数据包中数据报文时间、端口号、标志位等静态信息。然后分析了不同恶意软件数据报文传输时间差变化规律、端口号变化规律、TCP标志位变化规律等,分析结果发现不同类别软件流量在时间维度上的变化曲线具有一定差异性。2.根据上述分析结果,提出一种基于LSTM的流量时序特征提取方法。首先针对提取到的静态信息进行归一化处理,然后利用改进的LSTM模型进一步提取时序特征。为了进一步加强LSTM结构的长期记忆能力,参照残差网络结构,将LSTM结构中的早期时间片状态传递到后期时间片,提出了RESNET_LSTM结构。为了同时提取归一化数据多个时间维度的特征,本文向多个LSTM结构并行传入不同时间步长的数据,提出一种并行的网络结构——PARALLEL_LSTM结构。3.结合以往对流量静态数据的研究,提出一种时序特征与关联规则相结合的恶意软件分类方法。研究内容包括关联分析、类别规则库的建立、规则量化(根据规则库,将数据包量化为一个维度是流量类别的向量)、特征融合,然后使用机器学习或深度学习分类器实现恶意软件流量的多分类。4.最后,基于本文收集的Gh0st、DarkComet、Hupigon等106种恶意软件流量数据及正常流量数据进行实验验证。实验结果表明在仅使用时序特征进行分类时,预测准确率在94%以上。在使用量化规则与时序特征结合的融合特征进行分类时,预测的准确率在96%以上。而以往基于机器学习直接使用流量静态特征信息进行分类时,准确率在85%左右。结果说明本文提出的方法可以有效的检测恶意软件流量,并较以往采用机器学习对静态特征进行分类的方式检测准确率更高。