基于探索机制的对抗深度强化学习中毒攻击研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户：cx1223

【摘要】

：

【作者】

：

蔡侃廷

【出处】

：

浙江师范大学

【发表日期】

：

2020年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在过去的几年里,深度强化学习（Deep Reinforcement Learning,DRL）技术在许多领域都得到了应用,与此同时,该技术的安全问题受到专家学者的广泛关注,研究对DRL的攻击和提高DRL鲁棒性成为了一个全新的课题。深度强化学习是深度学习结合强化学习形成的针对过程决策问题的方法,在学习阶段,它首先建立一个深度神经网络,该网络通过收集智能体在和环境互动过程中收集到的信息进行学习,然后用学习到的模型对当前所处状态各个动作的长期价值进行评估,并根据探索策略选择其中最有价值的一个动作,最后将该动作反馈到环境中去并收集最新的信息。尽管深度强化学习在许多应用场景中展现出了超过人类的性能度和决策正确率,但最近的研究表明,深度强化学习极容易受到攻击者的非法攻击,攻击使智能体学习到一个错误的策略或者对当前状态做出错误的判断。在一些关键性的安全领域,深度强化学习的脆弱性可能会造成巨大的经济损失,甚至对人身安全造成威胁。为了保证DRL在各个领域获得应用的同时保证它受到攻击后不会造成危害,充分研究深度强化学习的对抗攻击、设计更好的防御方法是非常有意义的一项工作,本文针对深度强化学习结合探索机制提出不同的对抗攻击方法。首先,本文总结了已有的深度强化学习对抗攻击方法和探索方法,在此基础上,利用探索方法在白盒环境下针对深度强化学习训练时期回报中毒攻击进行研究,并通过实验对该方法的有效性进行了深入探讨。同时也进行了黑盒环境下对抗深度强化学习攻击的研究,攻击者在黑盒环境下仅能观察到智能体和环境的互动信息,该攻击方法在智能体训练时期结合探索方法对智能体的回报进行攻击。本论文主要研究内容包括以下两个方面:1.提出了一种基于E-value的对抗深度强化学习方法。训练时期的回报攻击是通过对智能体接收到的环境回报加以扰动来让智能体学习到一个错误的策略。为了使智能体对真实环境的收敛产生偏差的同时减少攻击次数和扰动大小,设计出一个良好的攻击方法非常有必要。因而我们提出了一种新颖的回报中毒对抗攻击方法,该方法采用强化学习的探索策略有效地对智能体进行攻击。攻击者首先建立一个深度神经网络来获取E值来代表智能体在学习过程中对环境中的每个状态-动作对的探索值,并通过E值来确定攻击的时机和加入扰动的大小,以生成针对回报的攻击样本。我们在不同环境中进行了大量实验,实验结果证明基于E-value的中毒回报攻击可以有效地减少攻击次数及扰动大小。2.提出了一种基于后继表示（Successor Representation,SR）的对抗深度强化学习方法。在过去针对DRL对抗攻击的研究中,主要方向集中在白盒环境下进行的攻击,即攻击者可以获取被攻击智能体模型内部网络的层次和权重,然而,多数情况下攻击者无法获取这些信息。在本文中,我们提出了一种黑盒环境下针对训练时期的回报中毒对抗攻击方法,该方法利用DRL探索策略有效地对智能体进行攻击。攻击者在攻击前学习利用SR模型对环境进行学习,以获取各个状态之间的后继联系以及每个状态中动作对应的及时回报,并通过后继联系信息和回报信息对攻击的时机和攻击的方向进行判断,确定相应扰动的大小。通过Gym环境的实验证明基于SR的中毒回报攻击具有良好的性能,并且可以有效地减少攻击次数及扰动大小。通过以上两种方法,我们不仅解决了攻击者攻击时机的选择问题,最大化每次攻击的攻击效果,还增加了黑盒的算法,增加了攻击的可行性。

其他文献

基于神经网络的中国版画风格迁移算法研究

Gatys等人首次将图像的内容与风格进行分割与重组,并在此基础上建立了一种以神经网络为基础的图像风格迁移方法。在互联网快速发展的今天,关于图像风格迁移技术的研究已经越来越多,但在中国的版画领域应用的结果并不理想。究其原因,主要在于中国版画具有鲜明的刀味和木味风格描述,而版画中很大部分都是以线条的形态表现的,同时这种线条也带有整体统一性。为更有效地处理中国版画图像的风格迁移问题,本文专门研究了基于神

学位

荆门市幼小衔接教育现状及对策研究

经济发展与教育事业的发展相辅相成,经济发展为教育事业提供资源基础保障,教育事业的发展为经济发展提供源源不断的活力与动力。国家高度重视教育事业的稳步发展,学前教育和幼小衔接也日益受到国内教育界的重视。幼小衔接是指幼儿园与小学两个教育阶段的衔接工作,为了推动幼小衔接教育深入开展我们必须用实践行动来检验,这样有助于儿童尽快适应新的学习环境和生活环境,也是实施素质教育的题中之意。作为一名小学教师,在工作实

学位

IB教育体系下PYP幼小项目学习社区的构建 ——以佛山某PYP幼儿园为例

IB-PYP课程是目前民办教育中的热点,IB有很多比较前沿的教育理念和模式,学习社区的构建就是其中一点。以往学习社区的研究多局限于幼儿园、家庭、社区三方联动的有关教育资源方面,更多是以幼儿园为核心,忽略了其他参与者,尤其是家长和社区其他成年人的参与感和获得感。笔者所工作的幼儿园就是一所实施IB-PYP课程的幼儿园,该幼儿园所处的社区氛围较好,居民友好互助,位于郊区使它远离了喧嚣,生活节奏较慢,是有

学位

我国应对加拿大反倾销的问题与对策研究 ——以加拿大对华铝材反倾销案为视角

中国和加拿大互为重要的贸易合作伙伴,两国开展贸易往来提高了资源配置有效性,为双方的企业创造了巨大的经济价值。但是加拿大对中国发起反倾销调查的次数在中国加入WTO,尤其是2010年后大幅增加,严重影响了我国出口企业的利益,因此有必要就如何应对进行研究。本文在介绍加拿大对华反倾销概况的基础上,结合该国对我国出口的铝挤压型材实施反倾销措施一案,总结得出该国建立在“替代国”价格基础上的正常价值认定机制是造

学位

2019-2020大学女子足球超冠联赛前八强进球特征分析

随着国家政策下校园足球的快速发展,校园足球越来越受到重视。2022年2月6日中国女足获得亚洲杯冠军,时隔十六年在次登顶亚洲之巅,女足的夺冠许多人开始关注和参与这项运动极大的推动了女子足球的发展。大学女子足球超冠联赛作为国内高校层面最高水平的足球联赛,是青少年校园足球发展的重要赛事平台,对深化青少年校园足球的新发展阶段高质量发展具有重要意义。但是在技战术技能、教学训练方法、球员的综合素质和技战术水平

学位

职业学校教育管理信息化问题研究 ——以M学校为例

近些年,随着我国经济的发展,信息化水平的不断提升,使得各行各业的融合更加方便,为我国的发展提供了新的发展环境。尤其是对于教育行业而言,促进了我国教育行业进入了一个全新的阶段。信息技术的发展,翻转课堂、微课、慕课等教育手段逐渐被应用与教育教学之中,不仅改变了教师教学方式,也促进了教学管理手段的转变。但是由于在职业教育信息化建设的过程中,存在教师信息化素养不高、教学资源有限、基础设施不全等问题,因此,

学位

基于深度学习的网络爬虫算法研究

随着网络技术的快速发展,网络信息的载体多种多样,促使互联网信息呈指数增长,给信息的发送、传递与收集带来了巨大的便利。因此针对海量的网络信息,如何提供一种精准、高效、便捷的主题爬虫算法,对网页信息实现精准采集,让需要研究和搜集相关领域信息的用户获取对自己有价值的信息,成为一个重要且有意义的研究工作。本文在对国内外相关研究分析基础上,基于深度学习神经网络,构建网页主题判别器,判断目标网页的主题,提出改

学位

面向Web的图像与实景三维场景融合技术研究

疫情期间的线上教学、居家办公等经历,引发了人们关于元宇宙的热烈讨论。广义上的元宇宙构建要实现现实到虚拟空间的映射,这与数字孪生建设目标相似。考虑到信息共享与轻量化应用等建设需求,当前国内的数字孪生平台,大多是在大数据云服务的支持下构建的面向Web的系统。图像与实景三维场景的融合是数字孪生平台中多源传感器信息集成需求之一。除此之外,实现图像与实景三维场景的融合,还可以弥补实景三维模型作为三维数字底座

学位

旅游情境下河阳朱氏宗祠的祭祀与展演

随着现代化与全球化的进一步发展,民族性和地方性知识在面临存续发展挑战的同时,民族文化和地方文化也被作为经济资源利用起来。全国各地涌现众多民俗旅游村落,进行着一台又一台的旅游展演,政府、企业以及其它主体纷纷将社会文化资源转化为经济资源,在旅游开发与互动的过程中谋求各自的诉求。本文以河阳为田野点,在掌握第一手资料的基础上,研究旅游情境下河阳朱氏宗祠祭祀的复兴、祭祀与其它传统文化参与旅游发展的表现以及文

学位

村落有机体健康度评价研究 ——以金华市金东区46个村落为例

“三农问题”,一直是国家发展的战略问题,也是学界研究和关注的重点。自2005年党的十六届五中全会提出“社会主义新农村建设”以来,中央一号文件持续关注“三农问题”,到2017年党的十九大提出“乡村振兴”战略,越来越多的目光注焦乡村,乡村已经成为我国决胜全面建成小康社会的关键一步,乡村的重要地位愈发突出。在“乡村振兴”战略中,学者们分别围绕着“生态宜居、乡风文明、生活富裕、产业振兴、治理有效”五大维度

学位

基于探索机制的对抗深度强化学习中毒攻击研究

与本文相关的学术论文