增强型深度确定策略梯度算法

来源 :通信学报 | 被引量 : 0次 | 上传用户:hufeng274240003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池。在算法执行过程中,训练样本分别从多样性样本池和高误差样本池按比例选取,以兼顾样本多样性以及样本价值信息,提高样本的利用效率和算法的收敛性能。此外,进一步从理论上证明了利用自模拟度量方法对样本进行相似性度量的合理性,建立值函数与样本相似性之间的关系。将E-DDPG算法以及DDPG算法用于经典的Pendulum问题和MountainCar问题,实验结果表明,E-DDPG具有更好的收敛稳定性,同时具有更快的收敛速率。
其他文献
对125例心跳呼吸骤停病人发生的原因、地点、治疗经验及教训进行了讨论。目前心肺脑复苏的成功率仍偏低,影响因素在于能否抓紧心跳呼吸停止的前4分钟进行及时抢救。脑复苏仍有许多
以成熟的500尾野生光唇鱼(雌雄比1:1)为亲鱼,以室外水泥池为产卵池及育苗池,通过设置产卵巢及采用微流水措施诱导亲鱼产卵,获得不同批次的受精卵共72 650粒,平均受精率达85.3
依据我国新时期高等财经教育的发展趋势,以适应国际、国内市场的需求为切入点,指出了STP营销战略在财经创新型人才培养过程中的重要性,同时在与传统教育理念、教学方式、管理
熊果酸属五环三萜类化合物,广泛存在于食物和药用植物中,具有抗炎、抗病毒、抗肿瘤、抗氧化和保肝等多种药理活性。近年来,熊果酸的结构修饰与活性研究逐渐成为该领域的研究
根据格代数公式,对三值逻辑函数表格法最小化提出一种新方法。在搜索蕴涵项、质蕴涵项的过程中,采用找出满足下述 条件最小项的策略:一是相邻最小项的数量为3的m次或者m-1次
报告采用经耻骨后保留尿道前列腺切除术治疗前列腺增生67例,术后随访3~18个月,疗效满意。认为本手术具有不损伤尿道、术后恢复快、并发症少、保留顺行射精、简单易行等优点,适用于除外
<正> 春砂仁是我省主要的南药品种之一。历史悠久,驰名中外。但在解放前由于遭受国民党反动派的摧残,春砂仁生产淹淹一息。解放后,在毛主席革命路线指引下,各级党政对春砂仁
外语学习者存在着多种个体差异 ,直接影响到他们的外语学习。因此外语教师必须重视学习者的个体差异因素 ,特别是语言学习能力与认知方式的个体差异 ,因材施教 ,从而提高教学