基于实用推理的多智能体协作强化学习算法

来源 :华中科技大学学报(自然科学版) | 被引量 : 0次 | 上传用户:jjJJ012689
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对将单AgentQ-学习协作算法直接扩展到多Agent系统会导致状态-动作对集合的急剧膨胀、从而影响多Agent的协作学习速度的问题,提出了基于实用推理的多Agent协作强化学习算法.在实用推理框架下,首先在慎思过程中通过考虑群体意图来确定单个Agent的子意图;然后,在手段-目的推理过程中采用Q-学习算法得出实现子意图的最优策略,从而实现群体意图.在Q-学习算法中,各Agent只需考虑自身的状态-动作的值函数更新,对其他Agent值函数的更新可以不加考虑,从而大大降低了算法的空间复杂度,提高了学习速度.追捕问题的仿真实验结果验证了算法的有效性. Aiming at the problem that the single AgentQ-learning collaboration algorithm directly extends to multi-agent system, which leads to the rapid expansion of the state-action pair to the collection and thus to the speed of collaborative learning of multi-agent, a multi-agent cooperative reinforcement learning algorithm based on practical inference is proposed. In the framework of practical reasoning, the sub-intent of a single agent is first determined by considering the group intent in the process of deliberation. Then, the Q-learning algorithm is used to obtain the optimal strategy of sub-intension in the process-purpose reasoning so as to achieve the group intention In the Q-learning algorithm, each agent only needs to consider its own state-value updating function of the action, and can not consider the updating of other Agent value functions, thus greatly reducing the space complexity of the algorithm and increasing the learning speed. Simulation results of the hunt test verify the effectiveness of the algorithm.
其他文献
传统行政法中,行政主体和相对人一直处于不平等的地位。随着社会的不断发展,基于现代给付行政理念的确立,相对人独立的法律地位的凸显,相对人越来越多的参与到行政行为当中去。行
近年对《中长期铁路网规划》进行调整,提出将不断扩大和完善铁路网规模与结构布局,提高其运输质量,这体现了现有规划快速扩充运输能力、迅速提高设备水平的要求。电气化铁路以其
目的:肾细胞癌是肾组织肿瘤中最常见的一种肿瘤,而在肾细胞癌中又以肾透明细胞癌最为常见。鉴定调节肿瘤细胞转移的关键性蛋白对于这种致命性恶性肿瘤的预后预测、预防转移及
延安期鄂尔多斯盆地西北部原始沉积边界的范围一直存在争论,盆地沉积边界的恢复对于延安期的古地理环境、古构造面貌有一定的指示作用,同时对盆地西北部地区延安期的煤、油气
图像融合技术是综合处理多传感器图像数据的有效途径,日益引起人们的关注,应用范围遍及军事、遥感、医学等领域。多聚焦图像融合是图像融合的研究热点之一,融合后的图像信息
介绍采用磁选或重选-磁选联合流程从黄沙坪低品位钼、铋、钨、萤石、铁(石榴石)多金属矿的萤石浮选尾矿中回收石榴石的选矿工艺。将石榴石精矿细磨加工后,用作砂纸的磨砂和橡
颜色对中西方民族来说具有相同的视觉效果,但其象征意义在中西方文化中却不尽相同。本文以"黄色"为例,分析其在不同文化里所包含的象征意义,探究隐藏在颜色词背后的文化内涵,
目的:以人乳腺癌细胞MCF-7和耐多柔比星(doxorubicin,DOX)的人乳腺癌细胞MCF-7/DOX为研究对象,观察新型多芳烯姜黄素衍生物T63对这两株细胞系的影响,探讨T63能否逆转MCF-7/DO
随着经济的不断发展,石油煤炭等作为主要的能源供应,此类非可再生能源的大量使用,给大气环境造成了严重的污染,纯电动汽车有着绿色环保无污染的显著优点,其发展前景十分广阔
物理压轴题一般为难度较高的综合性试题,这些试题所占的分值较高。本文以2010年江苏物理高考压轴题为例,分析速度图像分析和求解方法在解题中的应用,从而帮助学生理顺解题思