论文部分内容阅读
最近的研究表明,基于深度神经网络模型的分类器的预测结果在特定环境并不具有鲁棒性,针对输入的微小改动往往会导致截然不同的输出预测结果。对抗样本正是人为设计的导致深度学习应用被欺骗甚至是失效的一种技术方法,以最大程度地增加目标网络的损失。人工智能领域的安全问题是不可忽视的一个重要方面,研究如何减轻以及防御对抗样本的攻击对人工智能未来的发展以及应用有着深远的影响。
目前,针对对抗样本的防御工作大都是通过在模型训练期间来直接解决鲁棒性的优化问题,但是,这样的防御策略往往会极大的增加训练开销以及原模型的推理过程,向下兼容成本巨大,往往需要对已部署的模型进行较大的改动和更新,甚至是只对特定类型的网络结构才有效果。
针对对抗样本所添加的对抗扰动的特殊性以及神经网络的层级结构和中间学习推理结果,设计提出了基于无参数的近邻判别的对抗样本检测方法。通过设计GK-Maps特征融合方法有效的保留输入样本的卷积特征图中与目标网络最终预测相关的类别标签以及细节信息,从而构建可比较的高分辨率的输入样本中间卷积结果的深度特征集合。并基于不同的近邻投影权值组合方案来改进SK-NN无参数近邻判别模型,在学习到的深度特征集合中进行子空间最近邻搜索以近似输入样本的数据流行,用以计算输入样本与预测类别标签之间的判别相似度差异,从而为模型的输入提供置信度估计,来有效的在目标网络运行时检测出输入到目标网络中的恶意对抗样本,并且该防御策略可以很好的应用在大部分基于卷积神经网络模型架构的已经预训练的分类网络模型中。实验结果表明,对抗样本所添加的对抗性扰动相较于干净的样本而言,其在不同的隐层下具有不同的神经元激活属性,并且SK-NN近邻判别方法可以有效的检测到这种差异,从而正确的判断出输入到目标模型中的对抗样本,最优的检测准确率达到了0.876,提高了分类器的输出结果的鲁棒性,减轻了对抗样本对于模型预测的影响。
目前,针对对抗样本的防御工作大都是通过在模型训练期间来直接解决鲁棒性的优化问题,但是,这样的防御策略往往会极大的增加训练开销以及原模型的推理过程,向下兼容成本巨大,往往需要对已部署的模型进行较大的改动和更新,甚至是只对特定类型的网络结构才有效果。
针对对抗样本所添加的对抗扰动的特殊性以及神经网络的层级结构和中间学习推理结果,设计提出了基于无参数的近邻判别的对抗样本检测方法。通过设计GK-Maps特征融合方法有效的保留输入样本的卷积特征图中与目标网络最终预测相关的类别标签以及细节信息,从而构建可比较的高分辨率的输入样本中间卷积结果的深度特征集合。并基于不同的近邻投影权值组合方案来改进SK-NN无参数近邻判别模型,在学习到的深度特征集合中进行子空间最近邻搜索以近似输入样本的数据流行,用以计算输入样本与预测类别标签之间的判别相似度差异,从而为模型的输入提供置信度估计,来有效的在目标网络运行时检测出输入到目标网络中的恶意对抗样本,并且该防御策略可以很好的应用在大部分基于卷积神经网络模型架构的已经预训练的分类网络模型中。实验结果表明,对抗样本所添加的对抗性扰动相较于干净的样本而言,其在不同的隐层下具有不同的神经元激活属性,并且SK-NN近邻判别方法可以有效的检测到这种差异,从而正确的判断出输入到目标模型中的对抗样本,最优的检测准确率达到了0.876,提高了分类器的输出结果的鲁棒性,减轻了对抗样本对于模型预测的影响。