MADDPG算法经验优先抽取机制

来源 :控制与决策 | 被引量 : 0次 | 上传用户：sunrisekarl

【摘要】

：

针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法

【作者】

：

何明张斌柳强陈希亮杨铖

【机构】

：

中国人民解放军陆军工程大学指挥控制工程学院,南京210007;海军指挥学院,南京210000

【出处】

：

控制与决策

【发表日期】

：

2021年1期

【关键词】

：

多智能体深度强化学习 MADDPG 经验优先抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法(DDPG)控制的多智能体训练具有一定的适用性.

其他文献

重庆三个地方品种山羊生长发育和肉用性能的比较研究

　　对重庆的酉州乌羊、渝东白山羊、重庆板角山羊三个地方品种的体高、体长、胸宽、胸深、胸围、初生重、断奶重、周岁体重生长发育性能和屠宰率、净肉率、眼肌面积等肉用性

会议

重庆地方品种白山羊后期生长发育肉用性能屠宰率净肉率板角

领域专业知识富关联关系提取方法

面向知识服务业中领域专业内容资源的多模态、智能化、精细化、知识化和重组化的碎片性管理需求,如何高效生成和应用专业知识,促进实体经济创新发展,成为共同的战略选择与难

期刊

富关联关系领域专业知识关系提取自然语言处理人工智能深度学习

MADDPG算法经验优先抽取机制

其他学术论文