基于强化学习的多Agent协作研究

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:jihuoxiazai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习为多Agent之间的协作提供了鲁棒的学习方法.本文首先介绍了强化学习的原理和组成要素,其次描述了多Agent马尔可夫决策过程MMDP,并给出了Agent强化学习模型.在此基础上,对多Agent协作过程中存在的两种强化学习方式:IL(独立学习)和JAL(联合动作学习)进行了比较.最后分析了在有多个最优策略存在的情况下,协作多Agent系统常用的几种协调机制.
其他文献
红色遵义,山川锦绣。遵义地处黔北,深山绵远,古林覆盖,乌江穿流,黔山秀水之间,遍布奇花异木。近年来,在市委市政府的有力支持下,遵义盆景厚积薄发,与国内外盆景界开始了频繁
非结构性碳水化合物(NSC,主要是可溶性糖和淀粉)是树木存活的重要碳储备,随着碳源汇强度的变化而具有季节性。树木生存在相同的环境条件下会表现出不同的NSC季节存储模式,但
介绍了在设计MIPS计算机的北桥过程中开发的一套的验证和调试系统,内容包括北桥的软件功能仿真平台和硬件验证、调试平台.该系统为微型计算机的设计提供了一个方便实用的开发
构造协议转换器是解决异构网络互联的重要途径.理想的转换器应该能提供有效的、无丢失的通讯,同时还要尽量提高其转换效率,也就是能在尽量短的时间内完成协议转换.本文实现了
这是闽南盆景技艺传承人、厦门柯家花园柯成昆先生新近完成的一件意境新奇、造型清新、气势恢宏的榕树盆景。这件作品在数年前已经基本成熟,是雄浑健壮、霸气侧露的大树型佳
本文在活动轮廓模型的基础上 ,提出了一种自适应图像分割方法 .引入了新的与图象统计信息、梯度信息有关的加权外部能量 ,使得分割结果与模型的初始位置无关 ,不受噪声影响 ;利用 ACD方法使模型自适应地改变其拓扑结构 ;为了提高图象分割的速度和鲁棒性 ,提出了多分辨率图象分割算法 .利用该方法对一些形状、拓扑结构复杂的物体进行了分割实验 ,结果验证了该方法的有效性 .
煤炭资源属于不可再生资源,煤炭行业需要贯彻落实可持续发展理念,实现煤炭资源的有效保护。基于此,本文从可持续发展视角出发,对煤炭经济发展中存在的不足及相应的解决对策进
本文分析了载波跟踪环解调器的原理,着重探讨了70MHz载波跟踪环解调器的工程设计。电路数据准确可靠,对于设计制作1~80MHz范围内的调相解调器具有相当的参考价值。
自组织神经网络又称为无教师指导学习网络,可以自动地从环境中学习、获取知识、从而具有较强的自适应能力。目前,自组织神经网络在图象理解、模式识别、智能机器人控制等领域得
期刊