MADDPG算法经验优先抽取机制

来源 :控制与决策 | 被引量 : 0次 | 上传用户:sunrisekarl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法(DDPG)控制的多智能体训练具有一定的适用性.
其他文献
  对重庆的酉州乌羊、渝东白山羊、重庆板角山羊三个地方品种的体高、体长、胸宽、胸深、胸围、初生重、断奶重、周岁体重生长发育性能和屠宰率、净肉率、眼肌面积等肉用性
面向知识服务业中领域专业内容资源的多模态、智能化、精细化、知识化和重组化的碎片性管理需求,如何高效生成和应用专业知识,促进实体经济创新发展,成为共同的战略选择与难