强化学习中基于对示例样本进行动态增益的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：heyzol

【摘要】

：

【作者】

：

段智宏

【出处】

：

华南理工大学

【发表日期】

：

2021年05期

【关键词】

：

强化学习示例样本迁移学习深度学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着深度强化学习的不断发展,计算机已经在围棋、DOTA2等多个领域取得了超越人类的成绩。然而,数据利用率低、计算量大、训练单个智能体时间过长的问题仍旧阻挠着该领域的进一步发展。因此,提高数据利用率、降低所需计算量、减少训练时间对于深度强化学习领域有着十分重要的研究意义。有部分研究者利用迁移学习来帮助强化学习训练,迁移学习是一种利用源领域知识帮助目标领域训练的方法,然而如何去挑选源领域仍是一个悬而未决的问题。利用示例样本是一种利用其它智能体产生样本来加快学习的方法。但现有基于示例样本的方法要么存在所需额外计算量过大的问题,或者是很难在自产生样本和示例样本的学习中达到一个平衡,从而造成对示例样本的过学习。为此,本论文提出了基于对示例样本进行动态增益的方法。相比于现有方法,本论文提出的方法主要有以下两点改进:(1)在预训练阶段创新性的引入了评价机制,该机制能够根据示例样本在预训练阶段对训练智能体做出的贡献分配其初始的增益值。相比于为所有的示例样本赋予相同的初始增益值,本论文提出的方法更能区分示例样本的重要性,提高智能体对示例样本的利用率。(2)提出了在训练阶段的动态增益机制,该机制能够根据智能体对示例样本的学习情况,动态的调整其增益值。相比于固定增益,动态增益有效避免了智能体对示例样本的过估计,让智能体在示例样本和自产生样本的学习中达到一个平衡。为了验证提出方法的有效性,本论文在雅达利(Atari)游戏测试平台上大量实验,与多个算法进行对比;为了进一步研究两种不同机制的作用,本论文还进行了相应的消融实验分析。实验结果表明,本论文方法在没有增加额外计算量的前提下,相比于现有方法在平均得分上最高有20%的提升。此外,本论文提出的动态增益有效的在示例样本和自产生样本的学习中达到一个平衡,降低对示例样本过学习的风险,提升了智能体的最终表现。

其他文献

基于差分隐私密度峰值聚类算法的研究和应用

数据挖掘能够从大量数据中发掘出有效信息和潜在模型,而聚类分析作为其中的一项重要技术,通过将数据分类来发现特征,被广泛运用于商业、医学、科研等领域。然而,在对数据进行

学位

差分隐私聚类密度峰值隐私保护协同过滤

网络攻击下电力系统弹性频率控制和主动防御控制研究

近年来,网络攻击已导致全球范围内多起电力系统停电事故,严重影响了社会生产活动甚至威胁到国家安全。造成停电事故的主要原因之一是网络攻击通过对信息层的破坏渗透影响物理

学位

负荷频率控制DoS攻击虚假数据注入攻击切换系统理论时滞系统方法

基于深度学习的哈希跨模态检索研究

由于互联网上的多媒体数据爆炸式增长,人们对于能够方便快捷地检索多模态数据的需求日益增强,跨模态检索已经成为当前的研究热点。为了满足实际应用中低存储成本和高查询速度的要求,哈希技术在跨模态检索领域备受关注,它将高维多模态数据映射到公共的汉明空间进行模态间地相互检索。本文主要研究使用深度神经网络将多模态数据投影到公共的汉明空间,从减小编码误差、挖掘多模态数据的语义信息和缩小跨模态数据之间的差异性三个角

学位

哈希神经网络Adaboost三元组生成式对抗网络

面向车联网智能信息传输的关键新技术研究

车联网(Internet of Vehicles)作为汽车驾驶、电子信息、交通运输等行业深度融合的新型产业形态,越来越成为各国竞相发展的重要方向。车联网以车内网、车际网和车载移动互联

学位

车联网消息分发数据缺失数据传输张量

无线网络物理层安全中的中继策略研究

随着移动通信网络的不断发展,有限的频谱资源成为了制约蜂窝网络性能的主要原因。设备到设备(Device-to-Device,D2D)通信基于蜂窝网络和蜂窝用户共享频谱资源,可以用来改善网

学位

D2D通信物理层安全协作中继友好干扰社交信任

5G异构蜂窝网络中计算卸载和资源分配策略研究

随着移动互联网技术的发展,使得移动终端设备和数据流量迅速增长,并且衍生出了一系列计算密集型和延迟敏感型的应用。然而移动终端设备的计算和存储能力有限,无法支撑计算密集型和延迟敏感型的应用,因此移动终端设备需要将计算复杂的任务卸载到云计算中心来执行,以此来减少服务延迟。然而,将计算任务迁移到云计算中心执行,会带来大量的数据传输,会引起核心网络的拥塞,更会对延迟敏感的用户带来严重影响。移动边缘计算(Mo

学位

5GMECD2D匹配博弈资源分配

SDN下DDoS攻击检测与防护方法研究

伴随着网络不断的高速发展,互联网早已成为人们日常生活中不可缺少的一部分。在互联网带来高速便捷的同时,也面对着严峻的安全问题。在传统互联网的网络架构中,网络设备配置复杂、不同类型设备扩展性差等缺陷问题,已经愈发的难以满足时代对网络灵活高效的管理诉求。软件定义网络(Software Defined Network,SDN)作为一种新型的网络架构概念顺应而生。这种全新的网络架构冲破了传统网络架构固有的垂

学位

SDNDDoSPCA虚拟化

超密集网络中负载调度和服务缓存策略研究

随着增强/虚拟现实、车联网和自动驾驶等新兴移动应用的飞速发展,移动终端因其自身的能力限制,无法满足移动应用对计算和存储资源的需求。移动边缘计算(Mobile Edge Computing,MEC)通过在网络边缘部署计算、存储和网络服务,能够有效地处理网络边缘产生的移动数据,满足了移动应用对于服务质量(Quality of Service,Qo S)的要求。但是,移动数据量爆炸式增长和海量设备连接给

学位

超密集网络协作簇划分负载调度应用服务缓存强化学习

基于卷积神经网络的运动想象脑电信号分类研究

脑电信号(Electroencephalogram,EEG)是机体自发的电活动,是一种具备时-空特性的生理信号,人情绪发生改变、产生不同想法、做出各种动作等,都会引起EEG的变化。因此,研究挖掘EEG中的特征,进而为严重运动失能患者搭建起与外界沟通的桥梁,成为脑机接口(Brain-Computer Interface,BCI)研究的重要方向。然而,由于EEG有着幅度微弱、信噪比低等特点,对它的研究

学位

CNN运动想象EEG特征提取分类

多模态知识的评估与验证方法研究

传统知识图谱主要使用从表格或文本数据中抽取到的三元组知识,随着相关技术的发展,出现了结合图像等其他模态数据构建多模态知识图谱的研究工作,在这个过程中噪声和冲突不可避免的被引入知识图谱。为了更好的应用知识图谱,需要对其中的多模态知识进行评估与验证。针对来自不同模态的三元组知识采用不同的方法进行评估,对于从文本中得到的知识,基于背景信息以及三元组上下文信息进行评估,对于从图像数据中得到的知识,基于场景

学位

知识图谱多模态知识评估知识可信度评估知识表示学习场景图生成

强化学习中基于对示例样本进行动态增益的研究

与本文相关的学术论文