论文部分内容阅读
近年来,基于深度学习的文本分析和理解已成为包括问答、机器翻译、信息抽取以及文本分类在内的各种自然语言处理应用背后的核心技术。然而,尽管其备受欢迎且性能出色,但最新研究表明基于深度神经网络的自然语言处理模型容易受到恶意制作的对抗性输入的攻击。考虑到其在诸如情感分析、有害内容检测以及文本反垃圾等许多现实的安全敏感的任务中应用越来越广泛,这种脆弱性引起了人们对自然语言处理模型的安全性的极大担忧和高度关注。为了进一步研究基于深度神经网络的自然语言处理模型的脆弱性,学术界从不同的角度提出了大量的攻击方法来生成对抗文本。然而,大多数现有的攻击都假定可以访问目标模型的结构、参数或训练数据,而这种假设在许多现实的场景中通常不成立。并且,现有关于文本对抗攻击的研究主要集中在英文自然语言处理领域,而中文自然语言处理系统针对对抗文本的脆弱性仍然未知。此外,在对抗攻防博弈中,现有防御机制明显处于劣势,导致将自然语言处理模型完全暴露给了攻击者。为了弥合这一巨大差距以期进一步增强自然语言处理模型的鲁棒性,本文从三个方面研究了针对自然语言处理模型的对抗攻击和防御。与先前的工作相比,本文的优势在于:(1)针对现实应用的英文对抗攻击框架。我们提出了Text Bugger通用对抗攻击框架,该框架可以同时在白盒和黑盒设置下针对最先进的文本分类系统生成对抗文本。在用于情感分析和有害内容检测的15个行业领先的商业应用上进行的广泛经验评估表明,Text Bugger具有以下优点:(i)有效性——在攻击成功率方面,它显著优于最先进的攻击方法;(ii)隐蔽性——它保留了原始正常文本大部分的可用性,其中94.9%的对抗文本可以被人类读者成功识别;(iii)高效性——其生成对抗文本的计算复杂度与文本长度呈线性关系。(2)基于模型决策的中文文本对抗攻击。我们将对抗攻击扩展到了中文自然语言处理领域,并提出了一种新颖的基于模型决策的中文文本对抗攻击方法CTBugger,该方法可以针对中文自然语言处理系统有效地生成对抗文本。与现有的攻击方法相比,CTBugger具有以下优点:(i)实际性——它是第一个基于模型决策的文本对抗攻击方法,这种攻击只依赖于目标模型预测的硬标签,因而在实际场景中更为实用;(ii)有效性——在离线模型和实际应用上进行的系统评估表明,CTBugger可以以很高的成功率欺骗多个分类器,同时最大程度地保留原始文本的可用性;(iii)高效性——其成功生成对抗文本所需的平均模型查询次数少于6次,显著优于最先进的基于置信度的攻击方法。(3)基于多模态词嵌入和机器翻译的对抗防御。我们提出了一种专门针对中文自然语言处理模型设计的新型对抗防御框架Text Shield,以防御中文对抗文本。通过在两个收集自在线中文设计媒体的真实数据集上进行的深入实证评估,我们表明Text Shield具有以下优势:(i)通用性——它可以应用于任何中文自然语言处理模型而不需要重训练模型;(ii)有效性——它可以有效地防御在真实对抗场景中生成的混淆文本,而几乎不影响模型在正常文本上的性能;(iii)鲁棒性——即使是在自适应攻击的情况下,Text Shield依然可以显著地降低对抗攻击的成功率。