论文部分内容阅读
神经网络等机器学习模型在一系列的分类任务中表现突出,其应用也日益广泛。但是有研究表明,神经网络等模型的安全性是很脆弱的,其分类结果易受对抗性样本的影响,即会以很高的概率出现错误分类的情况,产生逃逸攻击并进一步对安全造成威胁。根据分类器模型和数据集的特性,有许多生成对抗性样本的方法,为了防御尽可能多种类型的对抗性样本,本文在前人的基础上提出了针对不同类型的对抗性样本的防御框架,以构建安全的图像分类器。本文分析了国内外的相关研究成果,研究了神经网络框架,探讨了对抗性样本攻击与防御方法。常见的MagNet和FeatureSqueezing等方法,是在样本进入到分类器之前增加自编码器作为过滤装置,并利用不同类型的样本在经过自编码器(AutoEncoder,AE)和分类器之后所产生的差异性以检测对抗性样本,但是检测出来的对抗性样本并不做进一步的处理。为了克服它的不足,本文提出了一种框架,利用对抗性样本和正常样本在经过变分自编码器(Variational AutoEncoder,VAE)的隐藏层时所产生的散度的差异作为检测的指标,并进一步改变对抗性样本的散度,从而重构出正常的样本,以提高分类器的准确率。框架由变分自编码器和卷积神经网络(Convolutional Neural Network,CNN)两种神经网络模型组成,VAE作为检测器和还原器被放在CNN之前,CNN作为分类器用于样本的分类。检测的方法是基于正常样本和对抗性样本散度的区别,利用VAE来检测对抗性样本;而还原的方法是通过VAE改变对抗性样本的散度以去除对抗性扰动,并将其重构为正常样本。该框架不仅能用于对抗性样本的检测,并能够进一步将对抗性样本还原成正常样本,提高了分类器的准确率,防止了逃逸攻击。实验结果表明,训练后的VAE能够帮助CNN正确分类,最优的ROC-AUC能达到0.94,表明该框架能够区分对抗性样本和正常样本,并能够将对抗性样本还原为正常样本,使得对抗性样本经过还原操作后再输入到分类器的分类准确率有了2%-10%的提高,实现了一个安全的图像分类器。