一种最大置信上界经验采样的深度Q网络方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:yanghao_haohao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由深度学习(deep learning, DL)和强化学习(reinforcement learning, RL)结合形成的深度强化学习(deep reinforcement learning, DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,
其他文献
目的分析2型糖尿病对脑梗死患者预后的影响。方法收集2015年12月至2017年12月在该院康复科住院的脑梗死患者126例资料,其中伴2型糖尿病的脑梗死患者56例为DM组,不伴2型糖尿病
目的观察右美托咪定联合局麻药行髂腹下/髂腹股沟神经阻滞用于小儿斜疝手术的效果。方法该院68例斜疝患儿,按随机数字表法分为观察组与对照组各34例。对照组仅予局麻药,观察组
三网融合的背景下,有线电视网络的发展方向必须要考虑到,从三网融合实质性推进阶段地市级广电网络的技术使命出发,提供交互服务,形成网络技术融合,确保移动技术推广应用,促进
2012年起以来,随着新型城镇化被提升到国家战略的层面,城乡一体化、提高城乡规划的建设水平成为新型城镇化战略的重要内容。为了更好地落实国家新型城镇化规划战略,2014年底国家发改委、国土部、环保部和住建部四部委提出在全国28个市县开展“多规合一”试点。这项工作将为提高城乡统规划筹水平和城乡一体化发展奠定坚实基础。然而,国内目前的“多规”协调研究和实践主要以沿海地区一二线发达城市为研究对象,对于处于
本文通过对摄影创作过程中视觉主体元素摄影语言的分析,对摄影视觉元素及视觉主体元素等概念要素及其特点进行解读,阐述视觉主体元素摄影语言与作品主题思想表达之间的相互关
研究背景和目的:精神分裂症是一组病因未明的精神病,多起病于青壮年,常有感知、思维、情感、行为等多方面的障碍和精神活动的不协调,病程多迁延。精神分裂症的发病机制尚不明
21世纪以来,我省经济发展迅速,从2000年的2902亿元发展到2015年的22005亿元,十几年间增长了十余倍,金融业也发展迅速,金融发展规模和金融服务水平也不断提高,在党和政府的支
介绍了磁悬浮轴承系统构成和工作原理,从控制电流的性质、受控自由度数、悬浮力产生方式、作用力方式、磁极布置形式等方面对磁悬浮轴承进行了比较与分析,给出了基于等效磁路
重瓣榆叶梅(Amygdalus triloba f.multiplex),又名小桃红,属蔷薇科,桃属植物,具有开花早、花期长、花朵大、分布地域广、耐干燥土壤、适应性强等特点,为我国北方最主要的早春
工程陶瓷具有耐高温、耐腐蚀、耐磨损、高承载力等特点,广泛应用于机械、能源、化工、石油、汽车、航空等领域。但是工程陶瓷在加工过程中容易产生陶瓷的相变、残余应变、崩边、裂纹等问题,市场需要高精度、高质量的工程陶瓷加工方法。本文主要研究陶瓷的微铣削加工,结合机械微加工和电解微加工进行铣削工艺参数研究。本文研究的主要内容包括:(1)构建了电解机械复合铣削陶瓷试验平台。在试验平台上研究电解机械复合铣削陶瓷试