【摘 要】
:
基于代理策略的强化学习算法近些年取得了广泛地研究和关注.基于信赖域的方法需要设定一个固定的信赖区间用于判断当前策略和上一时刻策略的距离,但该距离却在训练的不同阶段
【机 构】
:
山西工商学院 计算机信息工程学院 太原 030006
论文部分内容阅读
基于代理策略的强化学习算法近些年取得了广泛地研究和关注.基于信赖域的方法需要设定一个固定的信赖区间用于判断当前策略和上一时刻策略的距离,但该距离却在训练的不同阶段表现出不同的数值,因此策略的探索能力也受到相应的影响.基于此,本文提出一种随机选择的代理策略优化(SPPO)目标的方案用于解决该问题.本文在多个强化学习的模拟训练环境(MuJoCo)中对该方案进行试验评估,试验结果表明,本文提出的方案极大地提升最终的性能,并保持较高的样本利用率.
其他文献
目的实施以护生综合能力为核心的特色培训,探讨其应用效果。方法选取2017年1月—2020年1月医院护生92名为研究对象,按组间基本特征匹配原则分为观察组和对照组各46例。对照组
腹膜假性黏液瘤(pseudomyxomaperitonei,PMP)又称PMP综合征,是一种以黏液外分泌性细胞在腹壁或网膜种植而导致腹腔内大量胶冻状黏液性腹水为特征的疾病[1],是一种临床十分少
目的对肾衰竭血液透析患者应用内瘘专项优质护理,探究其对动静脉内瘘成熟及使用时限的影响效果。方法以2018年1月—2019年12月行维持性血液透析治疗的患者80例为研究对象,按
为分析飞机起降地面滑行阶段尾部流场分布情况,以计算流体力学(computational fluid dynamics,CFD)为基础,以国外某高速飞机数模为研究对象,基于Delaunay非结构三角化网格划
针对信息时代的背景下,互联网的飞速发展中计算机图像处理技术的一些不足问题的改进,通过调查分析发展与应用现状,就推进计算机图像处理技术在网页设计中的应用,提出一些改进措施。
“一带一路”倡议是新时代建设中国特色社会主义的重要入手,为我国职业教育国际化发展提供新的平台和助力.当前国际竞争的核心还是人才的竞争,特别是高素质、高技能的复合型
为解决侵彻战斗部在建筑物等目标内部爆炸后的爆炸位置难以测定的问题,提出一种基于爆炸冲击波超压测试数据的炸点预测方法。基于爆炸冲击波传播速度与冲击波超压衰减规律,构
针对矢量导弹脱靶量测量系统设计初期不易于实地、实物试验,为深入分析该系统性能,利用SystemVue软件进行建模,建立了面向调频连续波(frequency modulation continuous wave,
如何盘活特色农业数据资源,充分发挥农业大数据内在价值是深入推动智慧农业整合与跨界融合的基础,也是发展现代化特色农业面临的突出难题.本文研究以问题为导向,以全产业链数
为提高装备验收工作效率,将业务流程再造的思想应用到军事代表开展装备验收工作中。分析验收工作本质,阐述开展业务流程再造的基础,提出再造过程中要求与方法以及实施的步骤,