优化深度确定性策略梯度算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:jsptpd_dryy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习善于解决控制的优化问题,连续动作的控制因为精度的要求,动作的数量随着动作维度的增加呈指数型增长,难以用离散的动作来表示。基于Actor-Critic框架的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法虽然解决了连续动作控制问题,但是仍然存在采样方式缺乏科学理论指导、动作维度较高时的最优动作与非最优动作之间差距被忽视等问题。针对上述问题,本文提出一种基于DDPG算法的优化采样及精确评价的改进算法,并成功应用于选择顺应性装配机器臂(Selective Compliance Assembly Robot Arm,SCARA)的仿真环境中,与原始的DDPG算法对比,取得了良好的效果,实现了SCARA机器人快速自动定位。
其他文献
赵执信《谈龙录》严厉批评王士祯,其实质关系康雍乾诗坛风气的转移,故广为清人关注,后人对其毁誉不一,情况相当复杂。《谈龙录》现存最早的版本为清代王峻批钞本,钞本间有评
近年来,危机管理虽逐步引起人们的重视,然而,同中国其他地区相比,民族地区面对危机的形式更为严峻。在结合民族地区特点的前提下,引入预警管理的概念。从2008年发生在阿坝州
市场营销是离市场和社会最近的科学之一,面对当今经济全球化趋势和时代的知识化、信息化要求,面临国际化市场对市场营销人才的全球资源配置要求,为了达到市场营销教学目的,市
汉代商丘地区是汉帝国东部的腹心地带,经济发达,战略位置十分重要,曾有多股势力逐鹿于此。汉帝国龙兴于芒砀山,芒砀山即是汉帝国的“龙兴之地”,使得汉代商丘在汉帝国政治生
目的 探讨改良口腔护理对经口气管插管患者的护理效果.方法 选取2014年8月~2015年10月我院收治的经口气管插管患者104例作为研究对象,按照随机双盲的原则将其划分为对照组和
朱丹溪作为“滋阴派”创始人,其妇科临证时以“气、血、痰、郁”为纲,主张从气血论治月经后期、闭经、痛经、崩漏,从痰论治带下、月经不调、不孕、恶阻、子肿,从郁论治闭经、
本文就施工单位工程项目施工风险管理的风险回避、损失控制、风险利用与风险管理策略在理论与措施上进行了探讨,结合我国一般工程项目和工程建设施工合同(CF—91—0201)条件,
在井下使用带式输送机运煤时,经常发生皮带跑偏,影响生产效率。带式输送机跑偏的原因有物料未落在皮带中部,承载辊组工作异常,传动、改向滚筒积煤等,针对上述原因采取相应的预防措
笔者临床使用手法复位结合石膏外固定,治疗8~14岁大龄儿童桡骨颈骨折的20例,疗效满意,现报道如下。1临床资料2014年1月~2018年12月于我科收治的大龄儿童桡骨颈骨折Judet-Ⅱ/
目的研究援奥驾驶员志愿者人格特质与心理健康的相关性。方法采用缩减版明尼苏达多相人格调查表(MMPI-2)及SCL-90,测试1 000名援奥驾驶员,分析两问卷各分量表及因子间的Pearson