【摘 要】
:
结合深度神经网络和强化学习方法的深度强化学习算法在模拟真实场景的任务上取得了令人瞩目的成就。深度强化学习算法利用深度神经网络具有的高级感知能力和强化学习算法具备的自主决策能力,在不需要对环境数据进行复杂的人工预处理情况下,能够让智能体从环境中直接进行自主学习。然而如何维持“探索和利用”的平衡成为深度强化学习领域的一个热点问题。传统深度强化学习算法采用在动作空间的抖动方式探索,导致决策效率较低,智能
论文部分内容阅读
结合深度神经网络和强化学习方法的深度强化学习算法在模拟真实场景的任务上取得了令人瞩目的成就。深度强化学习算法利用深度神经网络具有的高级感知能力和强化学习算法具备的自主决策能力,在不需要对环境数据进行复杂的人工预处理情况下,能够让智能体从环境中直接进行自主学习。然而如何维持“探索和利用”的平衡成为深度强化学习领域的一个热点问题。传统深度强化学习算法采用在动作空间的抖动方式探索,导致决策效率较低,智能体不能做出合理的决策。本文着眼于大规模样本空间下,深度强化学习算法中的探索问题,将噪音机制和深度强化学习相结合,提出了使用探索噪音的深度强化学习,主要研究内容可以概括为以下三部分:(1)使用确定性策略梯度的深度强化学习算法通过奥恩斯坦-乌伦贝克(Ornstein-Uhlenbeck,OU)噪音建立起时间和动作之间的联系以保证智能体具备探索的能力。虽然OU噪音的引入让行为策略具备了随机性,但是其探索并没有合理利用到动作的一致性以及最优性。针对此问题,将策略空间的噪音引入到深度确定性策略梯度算法中,提出了一种基于阈值探索的深度确定性策略梯度算法——TE-DDPG。从理论上分析了在策略空间探索的优势、设计合理的探索时机以及探索方法,并在一系列复杂的仿真控制模拟环境下实验,证明了算法的优越性。(2)当深度强化学习算法仅采用前馈神经网络时,难以处理不同状态之间的相关性。此外,在使用具有一定深度的神经网络作为函数近似器时,微小的权重变化会使网络输出产生巨大的差异,从而导致智能体做出的决策具有一定的偏差。针对这些问题,提出了一种使用探索噪音的深度循环Q网络模型——EN-DRQN,并在一系列复杂的视频游戏上进行验证以说明模型的有效性。(3)在置信区间策略优化算法中,以参数化策略的输出作为动作的均值,利用一定的方差进行高斯抖动让智能体具备从环境中探索的能力,然而这种抖动方式仅能在产生动作的周围做微小的震荡,其探索能力不足,导致智能体和环境交互的过程中难以挖掘更加有用的信息。针对此问题,提出一种使用自适应探索噪音的置信区间策略优化算法——TRPO-AEN,该算法融合了等向同规模探索的噪音和定向可扩展的噪音,通过每个情节的累计奖赏值来协调二者之间的探索与利用。对于参数化的噪音策略,利用策略梯度的方式进行更新。一系列的实验结果表明,智能体在每情节的奖赏获得了进一步的提升。
其他文献
下寺湾油田北沟83井区位于下寺湾油田中上部,其主要含油层段为延长组长2段,该区产量变化大,油水关系复杂,地质认识不清。本论文综合利用测井及各类分析化验资料,对长2层沉积
具备良好的沟通能力是学前教育专业师范生专业发展的基础,也是其今后从事幼儿园教育工作的重要能力之一,然而传统的教育教学方式难以满足新时代对学前教育专业师范生的培养要求。随着“互联网+教育”时代的到来,“混合式学习”逐渐受到了国内教育者的关注,为培养学前教育专业师范生沟通能力提供了契机。因此,本研究旨在依托学前教育专业核心课程《学前教育原理》,在混合式学习环境中培养学前教育专业师范生的沟通能力。研究从
农民专业合作社是推进新农村建设的重要组织载体。采用实地调研的方法对梧州市县的农民专业合作社进行调研,以合作社规范发展为切入点,从政府、专业合作社与农民等层面提出对
党的十九大把脱贫作为决胜全面建成小康社会必须打赢的三大攻坚战之一,并对脱贫做出全面部署。未来3年,还有3 000万左右农村贫困人口需要脱贫。确保到2020年我国现行标准下农
本文详细阐述了便携式DVD与硬盘集成的整体系统方案,并对硬盘选取以及主要芯片类型进行了详细介绍。在简单介绍HDD接口以及主解码驱动相关部分的基本构造的基础上,详细阐述了
在我国高考制度发展的历程中,招生形式经历了从单一到多元的变化,当前,大量高考学子和家长,试图利用艺考培训走上升学“捷径”,实现上大学、考名校的目标,艺考变成多数学子考取大学的“敲门砖”。过于功利的升学规划,导致艺考教育普遍存在“唯高考”的现象,高中音乐教育更多的是针对音乐高考生,完成教学大纲任务,非音乐高考生的天赋、兴趣、学习诉求,没有引起足够的重视,音乐学习在素质教育中应当扮演的角色,没有得到充
目的1.描述三级甲等综合医院变革型领导、心理授权与护士行为目标达成度的现状,并分析其影响因素;2.探讨变革型领导、心理授权与护士行为目标达成度的相关性;构建三者间的结
【分类号】G633.3 [摘要]:在当前的语文教学中,教学工具及教学手段也越来越多样化。其中,多媒体教学已经广泛应用于语文教学中。多媒体教学手段是近年来较为热门的手段之一,其有着演示方式形象生动、包含信息容量巨大等方面的独特优势,越来越多地受到广大教师的欢迎。如何有效地应用现代化的教学工具,是值得我们广大教师认真思考的问题。对此,笔者结合近年来自己在教学实践中的经验及感受,简单说一下自己粗浅的认
一、用爱心为听障生撑起一片天空我们常常把孩子比做初升的太阳。那么听障生就是迟升的朝阳。他们更需要老师的耐心、细心的呵护、理解与尊重、循循善诱……“要小心的像对待
目的:研究射频导管消融对频发室性期前收缩的治疗效果、手术并发症以及手术疗效的预测因素,探究部分心电图特征与室性期前收缩消融疗效的相关性。方法:纳入2017年1月1日-2018年7月31日在华中科技大学同济医学院附属同济医院心内科住院行射频导管消融的204例频发室早患者为研究对象(女性54.4%;平均年龄48±15岁;术前平均室早次数22005±12735次/24小时),通过电子病历系统采集人口基本