基于实用推理的多智能体协作强化学习算法

来源 :华中科技大学学报(自然科学版) | 被引量 : 0次 | 上传用户：jjJJ012689

【摘要】

：

针对将单AgentQ-学习协作算法直接扩展到多Agent系统会导致状态-动作对集合的急剧膨胀、从而影响多Agent的协作学习速度的问题,提出了基于实用推理的多Agent协作强化学习算法

【作者】

：

潘莹李德华梁京章王俊英

【机构】

：

华中科技大学图像识别与人工智能研究所,广西大学信息网络中心,

【出处】

：

华中科技大学学报(自然科学版)

【发表日期】

：

2010年04期

【关键词】

：

多智能体系统强化学习马尔可夫过程协作实用推理慎思过程

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对将单AgentQ-学习协作算法直接扩展到多Agent系统会导致状态-动作对集合的急剧膨胀、从而影响多Agent的协作学习速度的问题,提出了基于实用推理的多Agent协作强化学习算法.在实用推理框架下,首先在慎思过程中通过考虑群体意图来确定单个Agent的子意图;然后,在手段-目的推理过程中采用Q-学习算法得出实现子意图的最优策略,从而实现群体意图.在Q-学习算法中,各Agent只需考虑自身的状态-动作的值函数更新,对其他Agent值函数的更新可以不加考虑,从而大大降低了算法的空间复杂度,提高了学习速度.追捕问题的仿真实验结果验证了算法的有效性. Aiming at the problem that the single AgentQ-learning collaboration algorithm directly extends to multi-agent system, which leads to the rapid expansion of the state-action pair to the collection and thus to the speed of collaborative learning of multi-agent, a multi-agent cooperative reinforcement learning algorithm based on practical inference is proposed. In the framework of practical reasoning, the sub-intent of a single agent is first determined by considering the group intent in the process of deliberation. Then, the Q-learning algorithm is used to obtain the optimal strategy of sub-intension in the process-purpose reasoning so as to achieve the group intention In the Q-learning algorithm, each agent only needs to consider its own state-value updating function of the action, and can not consider the updating of other Agent value functions, thus greatly reducing the space complexity of the algorithm and increasing the learning speed. Simulation results of the hunt test verify the effectiveness of the algorithm.

其他文献

行政主体和相对人共同违法的责任问题研究

传统行政法中，行政主体和相对人一直处于不平等的地位。随着社会的不断发展，基于现代给付行政理念的确立，相对人独立的法律地位的凸显，相对人越来越多的参与到行政行为当中去。行

学位

行政主体行政相对人共同违法责任

计及牵引供电系统的整定计算系统研究

近年对《中长期铁路网规划》进行调整，提出将不断扩大和完善铁路网规模与结构布局，提高其运输质量，这体现了现有规划快速扩充运输能力、迅速提高设备水平的要求。电气化铁路以其

学位

牵引供电系统继电保护故障计算整定计算软件开发

CX3CL1及其受体CX3CR1调节肾癌细胞迁移、转移及其临床意义的研究

目的：肾细胞癌是肾组织肿瘤中最常见的一种肿瘤,而在肾细胞癌中又以肾透明细胞癌最为常见。鉴定调节肿瘤细胞转移的关键性蛋白对于这种致命性恶性肿瘤的预后预测、预防转移及

学位

肾癌肾透明细胞癌CX3CL1CX3CR1迁移转移预后

鄂尔多斯盆地西北部早—中侏罗世延安期沉积边界恢复

延安期鄂尔多斯盆地西北部原始沉积边界的范围一直存在争论,盆地沉积边界的恢复对于延安期的古地理环境、古构造面貌有一定的指示作用,同时对盆地西北部地区延安期的煤、油气

学位

鄂尔多斯盆地西北部延安期物源分析锆石测年沉积边界

基于非负矩阵和小波变换的多聚焦图像融合方法研究

图像融合技术是综合处理多传感器图像数据的有效途径,日益引起人们的关注,应用范围遍及军事、遥感、医学等领域。多聚焦图像融合是图像融合的研究热点之一,融合后的图像信息

学位

多聚焦图像融合小波变换非负矩阵加权非负矩阵提升小波

从黄沙坪低品位钼、铋、钨、萤石浮选尾矿中回收石榴石的回收和应用试验研究

介绍采用磁选或重选-磁选联合流程从黄沙坪低品位钼、铋、钨、萤石、铁(石榴石)多金属矿的萤石浮选尾矿中回收石榴石的选矿工艺。将石榴石精矿细磨加工后,用作砂纸的磨砂和橡

期刊

石榴石硬度石榴石硬度磁选重选重选石榴石磁选石榴石砂纸橡胶充填剂

汉英颜色词“黄色”和“YELLOW”象征意义分析

颜色对中西方民族来说具有相同的视觉效果,但其象征意义在中西方文化中却不尽相同。本文以"黄色"为例,分析其在不同文化里所包含的象征意义,探究隐藏在颜色词背后的文化内涵,

期刊

黄色“yellow”象征意义原因

姜黄素衍生物T63提高MCF-7/DOX细胞株对多柔比星敏感性的研究

目的:以人乳腺癌细胞MCF-7和耐多柔比星(doxorubicin,DOX)的人乳腺癌细胞MCF-7/DOX为研究对象,观察新型多芳烯姜黄素衍生物T63对这两株细胞系的影响,探讨T63能否逆转MCF-7/DO

期刊

乳腺癌姜黄素T63耐药性MCF-7/DOX细胞株

纯电动汽车用永磁同步电机控制器的研究

随着经济的不断发展,石油煤炭等作为主要的能源供应,此类非可再生能源的大量使用,给大气环境造成了严重的污染,纯电动汽车有着绿色环保无污染的显著优点,其发展前景十分广阔

学位

纯电动汽车永磁同步电机矢量控制迭代学习滑模观测器

借助速度图像分析求解江苏高考物理压轴题

物理压轴题一般为难度较高的综合性试题,这些试题所占的分值较高。本文以2010年江苏物理高考压轴题为例,分析速度图像分析和求解方法在解题中的应用,从而帮助学生理顺解题思

期刊

高考物理压轴题速度图像运动量

基于实用推理的多智能体协作强化学习算法

与本文相关的学术论文