基于多Agent并行采样和学习经验复用的E^3算法

来源 :吉林大学学报(工学版) | 被引量 : 0次 | 上传用户:wangxintju4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对E^3算法所需的收敛时间界限太大,在实际问题中难以有效应用的问题,提出了一种基于多Agent并行采样和学习经验复用的改进算法。该算法在探索阶段,通过多Agent并行采样,快速收集模型信息,加速了模型构建过程;在利用阶段,通过保留最优值函数的方式复用算法的学习经验,提高了算法迭代计算值函数的效率。仿真实验结果表明,所提方法与原始的E^3算法相比,在收敛速度和精度方面都具有很大的提高,与其他两种并行强化学习方法相比也具有很大的性能优势。
其他文献
随着社会老龄化的加剧,心脑血管病已成为老年人致残、致死的主要原因之一,而高血压病是多种心、脑血管疾病的重要病因和危险因素,其影响重要脏器如心、脑、肾的结构与功能,最终导
针对水面无人艇仿真的实际应用,引入协同仿真技术,提出了水面无人艇协同仿真框架和配套的开发方法.阐述了该平台的体系结构和信息流程,对运动控制的协同仿真模型进行了说明,
在城镇化进程不断加快背景下,城市的建筑工程规模不断扩大,越来越多高层建筑和超高层建筑涌现,大大促进了建筑行业的发展和经济增长。在建筑工程中,屋面防水性能高低直接影响
针对月面低重力环境,采用轮上载荷为20~60 N的轻载荷条件,以车轮轮上载荷和速度为试验因素,车轮沉陷为试验指标设计正交试验方案,在模拟月壤3种不同状态下进行筛网轮土槽试验,采集车轮实际沉陷值,并利用激光轮辙形貌测量装置扫描轮辙,采集表观沉陷值。通过回归分析,拟合得到模拟月壤不同状态下筛网轮沉陷关于轮上载荷和速度的二元线性回归方程,方程拟合较好,置信度均为0.99,且相关系数均在0.9以上。对比车
<正>目的:运用根尖片测量露龈笑治疗前后上颌切牙牙根吸收的量,了解种植体支抗在前牙压低治疗过程中的牙根吸收情况。方法:选择16名成年女性露龈笑患者进行种植体支抗解除露
会议
近些年来,随着互联网技术的不断革新,以及媒体自身的迅速发展,竞争也愈加激烈。媒介融合时代,传统媒体面临多重挑战,技术对媒体的颠覆与引领众人皆有目共睹,挑战使得变革更大,机会更
【病例】女,43岁。因体检发现盆腔囊肿4d,要求手术治疗入院。查体:心肺腹未见异常。直肠指诊检查:直肠后壁后方可触及肿物,质软,无触痛,表面光滑,边界触摸不清。钡剂灌肠检查:骶骨-直
在对历史观念进行消解与重建的过程中,女性这一叙述的盲点终于被受到西方女性主义思潮影响的男性作家所重视并将其作为了表达的主要对象。中国儒家文化所提倡的刚柔并济,在女
阅读参与度是考查中职生阅读素养的重要指标,阅读参与度的提升对提高中职生阅读能力有重要作用。文章对中职生课外阅读现状进行了调查,分析中职生阅读参与度方面存在的问题,并就