论文部分内容阅读
随着计算机的普及与互联网的高速发展,恶意软件的数量和种类越来越多,给恶意软件检测带来了前所未有的挑战。现有的检测方法可以分为基于统计特征、文本语义和行为图进行检测,虽然这些方法可以检测恶意软件,但都存在着各自的不足。基于统计特征的方法高度依赖专家经验进行特征码提取,很难识别经过混淆和加壳处理的恶意软件;基于文本语义的方法对硬件性能要求过高,无法处理过长的序列数据,导致恶意软件可轻易绕过序列检测窗口;基于行为图的方法依赖于复杂的图匹配算法以及深度学习模型,可解释性不高,无法应对采用高级对抗技术的恶意软件。因此,如何弱化人工特征提取环节,提高恶意软件的检测效果是一个亟待解决的问题。针对恶意软件检测方法的不足,本文研究了恶意软件的相关知识,包括恶意软件定义、发展趋势、检测对抗技术以及恶意软件执行过程中的典型操作行为,并在此基础上结合当前深度学习领域的研究成果,提出了基于图表示学习技术的恶意软件检测方法。该方法将函数调用序列转化为函数调用图,并结合多种方法提取各个节点的编码特征、功能特征和行为特征,从而将函数调用图转化为特征函数调用图,再通过图表示学习算法对特征函数调用图进行基于邻域跳层聚合的嵌入表示学习,最后将图节点嵌入表示输入到全连接神经网络进行分类训练。同时,针对恶意软件检测可解释性不高的缺陷,本文首次引入图像识别领域中的卷积可视化技术,对基于图表示学习的恶意软件检测模型进行了可解释性提升,通过将输出层的权重投影到图嵌入表示层,从而找到对目标类别影响最大的函数节点嵌入表示,从而定位恶意软件的关键函数与相关调用行为。本文对比了主流的恶意软件检测方法与基于图表示学习的恶意软件检测方法,并在公开的数据集上进行实验分析,精确率、召回率、F1-score等评估指标证明本文方法可大幅提升检测效果,且不过分依赖人工特征提取。同时,本文随机抽取测试集中的良性样本、恶意样本以及真实环境下的WannaCry勒索病毒进行了可解释性测试与验证,分析表明本文提出的可解释性方法能够很好地提升恶意软件检测模型的可解释性。