论文部分内容阅读
随着近几年深度神经网络的快速发展,人工智能在许多领域已取得巨大成功,例如图像分类、文本处理,语音识别等。它作为一项变革性技术,在带来巨大的经济效益和社会效益的同时,也产生了人工智能的安全问题。有研究表明深度神经网络易受到对抗样本的攻击,即在原始样本上添加精心设计的微弱干扰就能使深度神经网络判别错误。对抗样本的存在对人工智能系统的实际部署造成了极大的潜在威胁,如自动驾驶、人脸识别等,促使研究学者在此领域进行了大量研究,通过对抗样本的攻击和防御算法相互对抗,形成人工智能安全性不断提高的良性循环。因此,研究对抗样本攻防算法对人工智能安全领域发展具有重要价值。从对抗样本产生机制出发,对抗样本与干净样本可以视为符合两种不同的数据分布,通过添加特定扰动实现两者的相互转化。生成对抗网络通过生成器和判别器之间相互博弈,实现噪声分布到图像分布的转换,即实现数据分布的迁移,在很多领域取得了较好的应用。因此,通过生成对抗网络学习对抗样本和干净样本两种数据分布间的关系,将研究重点从研究单个对抗样本的生成转换到研究对抗样本数据分布,为进一步高效率生成迁移性更好的对抗样本以及有效地还原对抗样本提供了新的研究框架。本课题借鉴生成对抗网络在数据分布迁移上的优势,从干净样本和对抗样本两种数据分布的角度研究对抗攻击和防御问题,取得的主要研究成果如下:1.针对现有对抗样本攻击算法和防御算法分离研究,攻防性能提升之间存在滞后性,未实现在同一框架中相互促进提高的问题,本文提出了基于循环生成对抗网络的对抗样本攻防一体算法。该算法基于循环一致性,将对抗攻击和对抗防御相结合,构建统一框架,通过攻击生成器和防御生成器不断对抗,促进攻防性能不断提高,最终实现攻防一体。在MNIST和CIFAR-10数据集上进行实验,该算法在两个数据集上分别达到97.46%和94.80%的攻击成功率和98.12%和54.82%的防御成功率,表明该算法能达到较好的攻击能力和防御能力,并且具有一定的迁移性。2.针对图像去扰动型对抗防御算法中训练数据集通常难以保证对抗样本和干净样本相匹配的问题,本文提出了基于解缠表示的无监督域对抗样本去扰动算法。该算法通过引入循环一致损失和扰动分支的方法解决非匹配数据集的问题,通过扰动编码器和内容编码器分别提取扰动特征和内容特征,并且将其分离,从而有效地去除对抗扰动。在MNIST和CIFAR-10数据集上的进行实验,该算法在两个数据集上分别达到96.81%和50.63%的防御成功率,表明该算法能达到良好的防御性能,同时提升还原图像的视觉效果。3.针对生成对抗补丁型对抗攻击算法无法使用单个模型生成多目标类别补丁的问题,本文提出了基于注意力机制的条件对抗补丁生成算法。该算法基于条件生成对抗网络,将类别信息融入对抗补丁生成框架,并基于注意力机制定位关键区域放置补丁,从而实现单个生成模型生成多类别的对抗补丁,完成多目标类别的攻击。在自然数据集ImageNet的子集上进行实验,该算法在白盒情况下定向攻击成功率能平均能达到73.00%,在黑盒情况下定向攻击成功率平均能达到51.96%,表明其能有效实现多目标攻击,提高视觉效果,并显着降低训练成本和模型存储量,具有良好的迁移性。