基于多重门限机制的异步深度强化学习

来源 :苏州大学 | 被引量 : 3次 | 上传用户:minisnake1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习简称DRL,利用深度学习的感知能力和强化学习的决策能力,使智能体可以直接进行自主学习,而不需要对原始数据进行复杂的人工预处理。然而DRL算法的训练十分依赖计算资源,需要利用图形处理器、张量处理单元等硬件来加速算法的训练过程。虽然循环神经网络能够有效地处理状态之间存在依赖关系的任务,但比前馈神经网络更耗时。此外,DRL算法虽然在机器人控制、游戏博弈等领域取得了令人瞩目的成果,但是其训练效果的不稳定性依然很严重。本文着眼于DRL算法的训练时间、训练效果、训练稳定性等问题,将多重门限机制、跳跃连接机制和自适应区间裁剪引入到DRL算法中,提出了基于多重门限机制的异步DRL方法。主要研究内容可以概括为以下三部分:(1)基于多重门限机制的异步优势行动者-评论家算法。当DRL算法仅采用前馈神经网络时,无法处理不同时间步状态之间存在依赖关系的任务。虽然循环神经网络可以通过其循环连接结构来记忆不同时间步状态之间的依赖信息,但是其无法利用并行化计算技术加速训练过程,因而需要更多的训练时间。针对此问题,将多重门限机制引入异步DRL算法中,提出了一种基于多重门限机制的异步优势行动者-评论家算法。从理论上分析了多重门限机制的优势,并通过一系列复杂的视频游戏任务验证了算法的有效性。(2)基于跳跃连接的异步优势行动者-评论家算法。DRL算法通过利用深度神经网络对于复杂状态空间的有效识别能力,使得智能体在复杂状态任务中更加有效。但是仅使用前馈网络的基于多重门限机制的异步DRL算法,会因为对于状态特征的错误识别,导致智能体在学习过程中表现得不稳定。针对此问题,在基于多重门限机制的异步优势行动者-评论家算法的基础上,提出一种基于跳跃连接的异步优势行动者-评论家算法。从理论上分析了跳跃连接机制的有效性,并通过一系列复杂的视频游戏任务验证了算法的有效性。(3)基于多重门限机制的自适应近邻区间策略优化算法。上述两个研究是基于深度神经网络模型的,DRL算法的训练效果和稳定性不仅与深度神经网络模型息息相关,还与强化学习算法有着密切的联系。为此,将自适应区间裁剪方法引入到DRL中,提出基于多重门限机制的自适应近邻区间策略优化算法,并通过一系列复杂的连续动作空间控制任务验证了算法的有效性。
其他文献
<正>1引言考虑无约束最优化问题■f(x),(1)其中f:R~n→R是光滑的非线性函数,但函数f的导数无法计算或是需要耗费过多的计算量.这类优化问题广泛存在于科学计算、工程设计、生
党的十九大报告提出要深化国有企业改革,发展混合所有制经济,培育具有全球竞争力的世界一流企业,表明如何选择混改方案,提高国有企业的竞争力成为国有企业混合所有制改革的关
工程结构所受载荷信息对结构的设计和安全评估意义重大。很多情况下,结构所受外部载荷无法通过测量直接获得,此时需要通过间接识别的方法。因此,动载荷识别技术受到研究者们的关注。传统的动载荷识别方法通常不考虑外激励、动力学系统以及动响应中的不确定性因素,属于确定性动载荷识别方法。该类方法无法考虑工程结构系统的“不确定”因素,也不适合用于工程结构上的随机动载荷识别。因此,需要发展一种考虑结构系统“不确定性”
目的建立高效液相色谱法测定辣白菜中苯甲酸的分析方法。方法辣白菜经前处理后用微孔滤膜过滤进样,以A-甲醇,B-乙酸铵溶液(0.02 mol/L)(A:B=5:95,V:V)为流动相,流速1 m L/min
卷积神经网络是机器学习研究领域的一个分支,是在人工神经网络的基础上发展起来的新的领域。随着大数据深度模型以及硬件设备的完善,深度学习技术也得到了广泛发展,促进了计
近几年来,许多先进的控制技术被应用于电梯群控系统中,使电梯群控系统的性能得到了很大地提高。而在电梯群控算法的研究中,需要设计一个电梯群模拟运行的仿真软件,通过计算机
<正>骆驼分为有一个驼峰的单峰骆驼和2个驼峰的双峰驼。单峰骆驼比较高大,在沙漠中能走能跑,可以运货,也能驮人。双峰骆驼四肢粗短,更适合在沙砾和雪地上行走。随着养殖业的
视觉空间关系分为类别与数量两种表征。研究通过控制起参照作用的运动客体消失状态与定位客体出现时间,分析客体运动信息对两种关系判断的影响。结果发现:运动信息在各间隔时
鉴于工资、薪金所得中按月发放工资及年终一次性奖金计税方式不同,本文旨在通过合理的发放方式,为纳税人有效避免“多发少得”现象、合理减少个人所得税的缴纳提供参考。
背景:肺癌是世界上发病率和死亡率增长最快,对人群健康和生命威胁最大的恶性肿瘤之一,在男性中其死亡率和发病率均位居首位。目前,针对肺癌的治疗方案主要有放疗,化疗和分子