基于强化学习的多Agent协作研究

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户：jihuoxiazai

【摘要】

：

强化学习为多Agent之间的协作提供了鲁棒的学习方法.本文首先介绍了强化学习的原理和组成要素,其次描述了多Agent马尔可夫决策过程MMDP,并给出了Agent强化学习模型.在此基础

【作者】

：

郑淑丽韩江洪骆祥峰蒋建文

【机构】

：

合肥工业大学

【出处】

：

小型微型计算机系统

【发表日期】

：

2003年11期

【关键词】

：

多AGENT系统强化学习 MMDP 协调机制 multiagent system reinforcement learning multiagent MDP

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习为多Agent之间的协作提供了鲁棒的学习方法.本文首先介绍了强化学习的原理和组成要素,其次描述了多Agent马尔可夫决策过程MMDP,并给出了Agent强化学习模型.在此基础上,对多Agent协作过程中存在的两种强化学习方式:IL(独立学习)和JAL(联合动作学习)进行了比较.最后分析了在有多个最优策略存在的情况下,协作多Agent系统常用的几种协调机制.

其他文献

同心协力写华章——记遵义市花卉盆景协会

红色遵义,山川锦绣。遵义地处黔北,深山绵远,古林覆盖,乌江穿流,黔山秀水之间,遍布奇花异木。近年来,在市委市政府的有力支持下,遵义盆景厚积薄发,与国内外盆景界开始了频繁

期刊

花卉盆景盆景展秀水盆景赏石厚积薄发黔北遵义市

中国温带森林12个树种树干和树枝的非结构性碳时空变异

非结构性碳水化合物(NSC,主要是可溶性糖和淀粉)是树木存活的重要碳储备,随着碳源汇强度的变化而具有季节性。树木生存在相同的环境条件下会表现出不同的NSC季节存储模式,但

学位

非结构性碳水化合物可溶性糖淀粉树干树枝季节动态温带森林

MIPS北桥设计中的验证与调试系统

介绍了在设计MIPS计算机的北桥过程中开发的一套的验证和调试系统,内容包括北桥的软件功能仿真平台和硬件验证、调试平台.该系统为微型计算机的设计提供了一个方便实用的开发

期刊

北桥MIPS仿真模型并口通信north bridge MIPS simulation model parallel port communication

基于EPr／TN网的异构协议转换器的构造

构造协议转换器是解决异构网络互联的重要途径.理想的转换器应该能提供有效的、无丢失的通讯,同时还要尽量提高其转换效率,也就是能在尽量短的时间内完成协议转换.本文实现了

期刊

异构网络协议转换器EPr/TN网计算机网络网络通信heterogeneous networks protocol conversion EPr/TN

闽南盆景后继有人(二十七)

这是闽南盆景技艺传承人、厦门柯家花园柯成昆先生新近完成的一件意境新奇、造型清新、气势恢宏的榕树盆景。这件作品在数年前已经基本成熟,是雄浑健壮、霸气侧露的大树型佳

期刊

盆景闽南气势恢宏大树

基于活动轮廓的多分辨率自适应图像分割

本文在活动轮廓模型的基础上 ,提出了一种自适应图像分割方法 .引入了新的与图象统计信息、梯度信息有关的加权外部能量 ,使得分割结果与模型的初始位置无关 ,不受噪声影响 ;利用 ACD方法使模型自适应地改变其拓扑结构 ;为了提高图象分割的速度和鲁棒性 ,提出了多分辨率图象分割算法 .利用该方法对一些形状、拓扑结构复杂的物体进行了分割实验 ,结果验证了该方法的有效性 .

期刊

活动轮廓自适应图像分割多分辨率图像处理计算机Active contour External energy Adaptive image segment

对基于可持续发展视角的煤炭经济发展分析

煤炭资源属于不可再生资源,煤炭行业需要贯彻落实可持续发展理念,实现煤炭资源的有效保护。基于此,本文从可持续发展视角出发,对煤炭经济发展中存在的不足及相应的解决对策进

期刊

可持续发展煤炭经济煤炭资源

载波跟踪环解调器的研究

本文分析了载波跟踪环解调器的原理，着重探讨了70MHz载波跟踪环解调器的工程设计。电路数据准确可靠，对于设计制作1～80MHz范围内的调相解调器具有相当的参考价值。

期刊

调相解调载波跟踪环

一种基于多目标的自组织神经网络学习方法

自组织神经网络又称为无教师指导学习网络，可以自动地从环境中学习、获取知识、从而具有较强的自适应能力。目前，自组织神经网络在图象理解、模式识别、智能机器人控制等领域得