【摘 要】
:
一般的标准强化学习的策略目标是找到一种能够获得最优的解决方案,但在实际的生活环境中仅掌握一种方法是远远不能满足的。因此掌握多种策略方案对于无时无刻都在改变的现实世界是一项必备的技能。但是在目前的强化学习中,如何平衡探索与利用两者之间的关系始终是一项难题。只有足够的探索才能发掘新的解决策略,但过于探索又会使其陷入无法掌握的困境。一直以来,对于无模型强化学习的探索都是通过看似随机的策略来负责的。但是这
论文部分内容阅读
一般的标准强化学习的策略目标是找到一种能够获得最优的解决方案,但在实际的生活环境中仅掌握一种方法是远远不能满足的。因此掌握多种策略方案对于无时无刻都在改变的现实世界是一项必备的技能。但是在目前的强化学习中,如何平衡探索与利用两者之间的关系始终是一项难题。只有足够的探索才能发掘新的解决策略,但过于探索又会使其陷入无法掌握的困境。一直以来,对于无模型强化学习的探索都是通过看似随机的策略来负责的。但是这种启发式的探索并不能帮助其自主地获得更多更好的经验来用于利用与学习。因此我们需要找到一个自主且有效的探索和利用方式。为了满足智能体自主高效探索的同时,还能根据探索的经验掌握多种解决方案。所以引入了带有能量形式的具有多峰分布的策略来对强化学习进行改进。目前该方向一个比较重要的成果就是利用通过soft Q-learning来学习最大熵的策略。但是一般的强化学习需要使用环境的反馈奖励或人为添加奖励函数来引导其策略进行更新,但实际环境中几乎都没有可直接使用的反馈奖励,针对每个环境添加奖励函数也是效率低下。因此还需要一种能够在没有任何反馈奖励的环境中进行自主探索学习的方法。目前已有部分不需要任何奖励的强化学习算法,其中包括目标距离梯度算法,其使用转移距离来作为策略更新的关键,几乎能够应用于任何环境中。但目前目标距离梯度法还没有与最大熵模型进行结合的理论办法,因此本文将以soft Q-learning方法作为理论基础,将其最大熵模型的方法推广到目标距离梯度算法中。本文根据目标距离梯度法与确定性策略梯度法之间的相同点与不同点,将适用于确定性策略梯度法中的最大熵方法应用到目镜距离梯度法中,提出一个GDG-Energy算法。实验结果表明,结合了最大熵模型的目标距离梯度算法能够在环境中获得多种解决策略,并且保留了原有算法的特点与性质。通过在四个迷宫环境中的实验对比,GDG-Energy算法比DDPG-Energy方法在稀疏奖励的环境中能够获得更好的效果。同时针对陷入局部最优的问题,GDG-Energy算法也能够经过大量的探索跳出局部最优寻找到全局的最优解。
其他文献
机车牵引变流器作为牵引传动系统电能传输和转换的核心部件,在运行过程中承受电热应力,且大多处于电、磁、热、机械等多场域耦合,故障率较高。本文以当前我国货运机车主力车型HXD1机车的牵引变流器为研究对象,通过分析牵引变流器电气故障,并及时分析处置,建立FRACAS系统(Failure Report Analysis and Corrective Action System)在牵引变流器故障信息闭环管理
随着大数据时代的到来,高维数据处理技术受到了越来越广泛的研究。张量(Tensor)作为矩阵向高维数组的推广,在现实生活中十分常见,例如:一个带有RGB通道的彩色图像可以看作一个3阶张量,一段彩色视频流可看作一个4阶张量。传统方法处理高维数据时通常将其转化为低维数组(如:矩阵、向量)再进行处理,这无疑破坏了高维数据内部的空间结构并使得结果不够准确。而利用张量在处理高维数据时可以保证数据的空间结构不被
环缝式引射瓦斯稀释器因其具有安全可靠、无需用电、安装简便等特点,在煤矿采煤工作面上隅角瓦斯治理等应用中受到广泛的关注。本文针对目前市场报导的环缝式引射瓦斯稀释器性能较低的问题,建立二维结构模型,采用数值模拟的方法对环缝式引射瓦斯稀释器性能影响参数进行研究,以期得到引射器性能的影响规律,并对优化模型的性能进行实验验证,主要研究内容包括:(1)选取矿用环缝式引射瓦斯稀释器(BRWX-80型)结构模型为
随着工业需求的增长,现代燃气轮机燃烧室容积热强度不断增大,出口温升不断提高,而过高的燃烧温度会产生大量NO_X。研究表明,贫预混燃烧可以降低燃烧温度,显著减少NO_X排放,然而采用贫预混方式的天然气同轴分级燃烧室却存在不稳定燃烧和贫燃熄火的问题,两者共同制约了燃烧室的稳定燃烧性能。因此需要对燃烧稳定性的两个方面:燃烧动态稳定性和贫燃熄火稳定性进行研究,为保障燃气轮机稳定工作,拓宽稳定燃烧边界奠定基
从二十世纪初,全球温度呈明显上升趋势,极端气温和降水事件开始频发,新疆地区气候变化明显、极端气候事件也发生了显著的变化。本文选用了分布在新疆区域88个气象站点1961-2016年的日最高气温、最低气温和日降水量资料和美国国家气候预测中心网站提供的大气环流指数的北极涛动指数(AO)和厄尔尼诺-南方震荡现象(ENSO)指数的逐日、逐月数据。使用16个极端气温指数和11个极端降水指数,分析了新疆极端气温
目的通过已收集的齐齐哈尔地区H型高血压的人群流行病学数据,探讨齐齐哈尔地区人群H型高血压相关危险因素,并分析H型高血压与亚甲基四氢叶酸还原酶(MTHFR)基因C677T多态性的相关性,为该地区H型高血压的防治提供个体化医疗方案以及临床指导,进而预防心脑血管疾病的发生与发展,提高该类患者的生活质量。方法选取齐齐哈尔医学院附属第一医院2018年8月~2019年12月收治的资料完整的246例高血压病患者
目的天浆壳(Japamese metaplexis pericarp)是植物萝藦(Metaplexis japonica(Thunb.)Makino)的果壳,其含有多种具有生物功能的化合物。本实验旨在优化天浆壳生物碱的提取工艺,分离生物碱并对其结构进行表征,研究其生物碱粗提物的抗氧化活性,验证天浆壳生物碱对Tca8113细胞的增殖抑制作用。方法以天浆壳为研究对象,在单因素实验的基础上,应用响应面法
徐闻探区位于北部湾盆地中北部,探区内地质构造极为复杂,地震资料品质也较差,致使圈闭落实和目标评价难度大。本课题针对该区两大研究难点,积极攻关构造精细解释方法,深入研
本文针对解决煤层巷道“高冒区”危险性,工作面采空区“两道”、“俯采”工作面采空区火灾危险及松散煤体自燃危险性的问题上,开展了粉煤灰膏体防灭火技术的研究。首先,本文通过红外分析、XRD分析及SEM扫描电镜的方法,得到粉煤灰膏体生成的主要原理,其中采用粉煤灰浆液作为骨料与复合膏体剂混合,以氢键或分子间作用力形式提高粉煤灰膏体的强度,且提高了粉煤灰膏体防灭火材料的保水性。并基于配比实验的原则,对膏体充填
分析与对比黄珏油田黄88断块51口井的钻、测井资料,确立黄88断块地层对比的标准(志)层,并依据“标准层控制、旋回对比”的原则,对各井的砂层组及砂体进行了细分对比,在地层对比