基于SAC的多智能体深度强化学习算法

来源 :电子学报 | 被引量 : 0次 | 上传用户：laopoxqq

【摘要】

：

由于多智能体所处环境动态变化,并且单个智能体的决策也会影响其他智能体,这使得单智能体深度强化学习算法难以在多智能体环境中保持稳定.为了适应多智能体环境,本文利用集中训练和分散执行框架Cen-tralized Training with Decentralized Execution(CTDE),对单智能体深度强化学习算法Soft Actor-Critic(SAC)进行了改进,引入智能体通信机制,构建Multi-Agent Soft Actor-Critic(MASAC)算法. MASAC中智能体共享观察信

【作者】

：

肖硕黄珍珍张国鹏杨树松江海峰李天旭

【机构】

：

矿山数字化教育部工程研究中心,中国矿业大学计算机科学与技术学院,宁波市轨道交通集团有限公司

【出处】

：

电子学报

【发表日期】

：

2021年9期

【关键词】

：

多智能体环境集中训练分散执行多智能体深度强化学习

【基金项目】

：

国家自然科学基金(No.62071470,No.U1934219,No.61971421),徐州市科技计划项目(No.KC19011,No.KC20167)。

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

无人直升机姿态/垂向速率SDRE控制

建立了无人直升机姿态/垂向通道的状态依赖伪线性模型,保留了状态耦合项,通过在线求解状态依赖Riccati方程(SDRE)得到名义模型的最优控制解,进而设计了积分扩展的状态依赖控制器。针对存在的外部扰动问题,设计了有限时间扰动观测器,对垂向与偏航两个耦合通道的扰动进行在线观测与补偿。最后在Yamaha-Rmax无人直升机数字平台上开展了仿真实验,结果表明,所提方法相对于经典的H∞鲁棒控制器具有模型参数依赖小、动态响应快的特点,实现了对直升机内环姿态与垂向速率的快速镇定。

期刊

无人直升机状态依赖Riccati方程姿态控制扰动观测器

国外机载光电瞄准设备发展

对国外Star SAFIRE 380X瞄准系统、EOTS瞄准系统、LITENING瞄准系统等先进机载光电瞄准系统的现状及技术特点进行介绍,在此基础上分析先进光电瞄准系统的相关技术,并对未来机载光电瞄准技术的发展趋势进行展望。

期刊

光电瞄准红外地理定位多传感器

丹麦议会“驱逐”婴儿引争议

近日，丹麥女议员阿比尔高借助社交媒体“诉苦”：她当天带着宝宝参加议会会议时，议长对宝宝下“逐客令”。　　这一消息在丹麦这个重视妇女权利的北欧国家引发争议。　　按照阿比尔高的说法，她当天带着5个月大的女儿参加议会会议，议长凯斯高经由一名助理传话：“议会大厅不欢迎你带孩子进来。”于是阿比尔高把孩子交给另一名议员助理照顾，返回大厅参加表决。　　对此，凯斯高表示，出现在议会大厅的应该是议员，“而不是婴儿或

期刊

机载火控雷达的射频隐身与电磁机动

借鉴电磁机动战思想,从电磁作战环境中机载有源相控阵火控雷达与对方电子侦察系统机动对抗的视角,分析了机载雷达射频隐身与电磁机动的含义,探讨了机载雷达射频隐身的电磁机动敏捷性、电磁机动信息熵。在此基础上,总结了空战电磁环境中,机载雷达射频隐身的“最小时间”、“最小功率”和“最大信号不确定性”3种电磁机动策略,以及对应的电磁机动工作方式。运用电磁机动战研究机载雷达射频隐身问题,拓展了机载雷达电磁作战研究的视野及思路,提出了有应用价值的机载雷达电磁机动策略和工作方式。

期刊

机载雷达电子侦察系统射频隐身电磁机动

讲话稿变“美文”，悠着点

不知道从何时起，公务员们在朋友圈里转发的，多了一类“领导讲话中的美文”，看标题就让人虎躯一震：“这名领导把公文写成散文，精彩绝伦”“局长的这篇讲话，直抵灵魂的经典之作”“韵律之美，这才是写材料的最高境界”……打开一读，有的确实有些文采，经过了自己的思考，讲道理深入浅出，堪称好文;但有相当一部分却“名不副实”，过犹不及、不分场合，甚至是新瓶装旧酒。　　细数起来，朋友圈里这些“美文讲话稿”不外乎两类，

期刊

基于SAC的多智能体深度强化学习算法

其他学术论文