【摘 要】
:
随着人工智能在各种场景中的应用,其安全问题也逐渐暴露出来,引起社会各领域研究人员的广泛关注。后门攻击便是其中之一,攻击者通过向训练数据集中投入一些“精心制作”的后门样本,导致模型在特定的输入上会产生错误分类的情况。现在大部分的神经网络后门研究工作主要集中在视觉领域。然而,互联上同样充斥着大量的文本信息,需要使用深度学习技术对文本分类等处理。因此,在自然语言领域的神经网络同样遭受着神经网络后门攻击。
论文部分内容阅读
随着人工智能在各种场景中的应用,其安全问题也逐渐暴露出来,引起社会各领域研究人员的广泛关注。后门攻击便是其中之一,攻击者通过向训练数据集中投入一些“精心制作”的后门样本,导致模型在特定的输入上会产生错误分类的情况。现在大部分的神经网络后门研究工作主要集中在视觉领域。然而,互联上同样充斥着大量的文本信息,需要使用深度学习技术对文本分类等处理。因此,在自然语言领域的神经网络同样遭受着神经网络后门攻击。本文结合国内外的研究情况,做了如下工作:(1)本文首先提出一种隐蔽性较高的后门攻击,能够在不影响模型精度的情况下就能实现较高的攻击率,并且能够躲避现有的关键字后门样本识别技术。针对这种攻击,提出一种基于扰动输入的检测方案。通过随机将其他类别的样本插入到输入样本中,然后利用木马模型预测每个类别干扰输入后的分类结果,观察来自模型的分类结果。如果输入样本是后门样本,则不易被错误分类到其他类别。而如果是良性样本,则极易受到干扰集的扰动。具体而言,根据模型对干扰后的样本的分类结果,利用信息熵计算每个输入的不确定度,良性样本具有更大的熵值,而木马样本的熵值非常小,通过预设置的边界值就能区分后门样本。并且我们还发现该检测方式具有通用性,同样能够适用于其他文本分类模型上,如对CNN模型等。(2)本文又提出一种基于迁移学习的后门修复方案。该方案利用良性样本和后门样本的特征空间不一样的特点,对其中某层或者新添加层的神经网络重新训练,保持其他层神经网络权重不变。由于新添加层或者中间某层神经网络的权重被重新调节,后门样本的特征经过该层处理的时候,其中的触发器特征并不会被新训练的层提取或向后传播,从而抑制了神经网络对触发器的敏感性。该方案仅需要添加少量良性样本就能完成后门模型的修复,大大降低了修复模型带来时间的消耗,并且该方案还能够应用到其他文本分类的模型上。(3)最后本文结合理论与模拟实验,分别比较现有方案与本文所提的两个方案的异同,总结现有方案存在的问题,并证明本文所提的方案具备简单、高效以及通用等优点。
其他文献
随着物联网产业的扩大与智能设备的普及,数以亿计的基于Linux系统的嵌入式设备逐渐融入到人们的生活当中。然而数量巨大、类型多、计算能力薄弱的嵌入式设备非常容易出现各种安全漏洞,这些安全漏洞一旦被攻击者恶意利用会造成严重损失。与传统个人电脑相比,基于Linux系统的嵌入式设备具有硬件资源受限、运行环境复杂、处理器架构种类多、进程间通信频繁等特点,导致传统的漏洞挖掘工具无法直接应用于基于Linux系统
榆林作为陕北地区国家能源基地的重要组成部分,在过去30余年为中国经济社会发展作出了重要贡献。然而,煤炭资源开发不可避免地给当地生态环境带来了采空区塌陷、土地与水资源破坏、生态退化等诸多问题,且目前因煤炭规模开发的负面效应持续加剧着矿区水资源、土地资源的破坏以及生态系统韧性的下降,已然威胁到榆林经济社会的可持续发展及国家能源资源的长远安全。多年来,榆林煤矿区在地质环境治理方面形成了一批可复制、可推广
黄土高原水土流失综合治理已取得明显成效,但仍有超过23万km~2水土流失面积未得到有效治理,水土流失、生态脆弱、民生发展滞后问题依然突出。淤地坝作为黄土高原水土流失综合治理的关键措施之一,存在溃决风险高、管护压力大、拦沙不充分三大痛点,导致其作用不能充分发挥。针对这些问题,提出了基于高标准免管护新型淤地坝的黄土高原“小流域+”综合治理新模式,其以高标准免管护淤地坝为统领,构建沟底、沟坡、沟缘、坡(
账本的结算与审计对于政府、金融监管部门和企业单位都是一项极其重要的工作,其结果也可以从侧面说明参与者实体在资产交易中是否遵守规定。传统的人工审计已经不符合现在高速发展的金融市场,取而代之的则是区块链技术,它的快速发展给各行各业带来了巨大的市场前景,尤其是在金融领域。许多的金融机构认识到区块链技术的优势后,利用此技术可以有效地进行跨地域、组织以及时空的交易行为,并且已经使用区块链来记录资产交易的信息
随着信息技术的发展,网络空间作为所有信息系统的集合,其安全性问题变得越来越突出。移动应用安全是网络空间安全中的重要组成部分,每年有大量的恶意应用会出现,其具有携带广告、恶意收取费用、泄露隐私等一系列重大问题。鉴于此,针对于恶意应用如何实现有效可信的检测就变得尤为重要。现有的恶意应用检测方法大都部署在云端,但云部署会造成隐私安全的问题。在特征收集阶段,用户的一些信息会被上传到云端,存在泄漏的风险,而
缓冲区溢出漏洞是目前计算机领域最严重漏洞之一,但过往针对缓冲区溢出漏洞的防护研究在实际应用于嵌入式设备场景时,往往体现出不同程度的局限性。例如缓冲区溢出防护工具ASAN,该工具能够对各类型缓冲区实施加固保护,但是其使用了穷举型的逻辑校验方式,虽然能够保证缓冲区溢出检测的完备性,但是也造成了不可忽视的性能开销。还有目前应用颇为广泛的Stack Guard工具,其通过在返回地址之前校验栈帧中的cana
区块链是当今密码学应用研究的重要领域,作为许可区块链的代表,Hyperledger Fabric如今已在金融领域有着许多成功的商业应用。然而,性能问题始终是限制Hyperledger Fabric进一步扩大应用场景的枷锁。尤其是在由大规模Peer节点构成的复杂网络环境下的并发交易场景,大量由客户端发起的交易提案因交易模拟结果不一致或多版本并发控制验证失败等原因被Hyperledger Fabric
时间序列是指将事物按照其发生的时间顺序进行排列的数列。它通常是以某一固定采样率对一段时间内的潜在过程进行观测的结果。时间序列数据本质上可以反映出一个或一组随机变量的变化运动趋势。通过对时间序列反s映出的趋势的挖掘、分析和研究我们就可以把握对应事物的发展规律,可以对事物有更深入的了解,也可以更好的预测事物未来的发展进而做到因势利导,趋利避害。时间序列预测的应用范围十分广阔,在传染病防治、交通运输、经
随着互联网信息技术的不断革新突破,尤其是IoT、人工智能和云计算技术的产生与发展,用户数据量和信息量呈爆炸式增长。对于个人和中小型企业来说,很难独自存储规模庞大的数据,云存储的出现为此问题提供了一种很好的解决方案。但是数据一旦上传到云上,所有者便失去了对数据的物理控制权。因此,外包数据安全便成为了数据所有者最关注的问题之一。当然,站在云提供商的角度,高效性和实用性反而更受关注。近年来,为了提高云存
随着云存储的不断发展,越来越多的用户开始使用数据外包服务,以节省本地存储空间。传统的数据外包以中心化存储为主,中心化的存储方式让整个系统的性能难以提升。服务端受损会直接导致用户数据被破坏,用户外包数据的安全性无法得到保障。数据下载速度也会随着同一时间内数据下载量的增加而大幅下降。相比之下,去中心化存储可拓展性更强、下载速度更快、数据安全性更高。但是,数据外包之后,用户便失去了对数据的控制权,无法保