论文部分内容阅读
网络安全的主要威胁之一是僵尸网络。僵尸网络的命令与控制服务器常使用域名生成算法(Domain Generation Algorithm,DGA)生成海量的短生命周期的DGA域名,僵尸网络的控制者通过DGA域名访问命令与控制服务器,对僵尸网络下达攻击指令。为了防范僵尸网络,网络安全研究者需要对DGA域名进行检测与分类。正确高效地检测DGA域名,将有助于研究者使僵尸网络的控制信道失效,进而达到防范僵尸网络的目的。因此DGA域名的自动检测成为信息安全领域的重要研究内容。近年来,机器学习方法广泛应用于DGA域名检测任务中,特别是随着深度学习的飞速发展,基于深度学习的DGA域名检测算法取得了一定的进步。但当前方法的分类模型较简单,对域名这类短文本的信息利用能力与特征提取能力有限,特别是在对DGA域名多分类的问题中,分类精度仍有较大的提升空间。本文从基于词向量的DGA域名深度学习模型与算法入手,结合词向量与深度学习模型等手段,对DGA域名检测算法进行多个方面的研究,提高域名分类精度。本文主要研究内容如下:(1)研究混合词向量深度学习模型的DGA域名检测方法。分析了基于字符和双字符组级别的混合词向量,以提高域名字符串的信息利用度,并建立了基于混合词向量方法的深度学习模型。最后设计了包含多种对比模型的实验,对混合词向量的有效性进行验证。实验结果表明基于混合词向量的深度学习模型在DGA域名检测与分类任务中相比只基于字符级词向量的模型有更好的分类性能,特别是在样本数量较少的DGA域名类别上的分类性能更优,证明了该模型的有效性。(2)研究基于混合词向量Transformer网络的DGA域名检测方法。构建了改进Transformer网络作为域名分类指示特征的提取网络,提高域名字符串有效特征的提取能力,并建立了基于混合词向量方法的改进Transformer网络DGA域名检测模型。最后进行了包含多种模型的DGA域名检测与分类对比实验,在OSINT和Alexa公开数据集上进行实验,将提出的算法与前沿DGA域名检测与分类算法进行对比,实验结果表明本文提出算法在DGA域名检测与分类任务上更为准确,验证了提出算法的有效性。本论文有图14幅,表10个,参考文献103篇。