混合多Agent环境下动态策略强化学习算法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户：ysli

【摘要】

：

机器学习在多Agent系统的协作和行为决策中得到广泛关注和深入研究.分析基于均衡解和最佳响应的学习算法,提出了两个混合多Agent环境下动态策略的强化学习算法.该算法不仅能

【作者】

：

肖正何青松张世永

【机构】

：

复旦大学计算机与信息技术系

【出处】

：

小型微型计算机系统

【发表日期】

：

2009年7期

【关键词】

：

多AGENT系统行为选择动态策略强化学习 multi-agent system action selection dynamic policy reinf

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

机器学习在多Agent系统的协作和行为决策中得到广泛关注和深入研究.分析基于均衡解和最佳响应的学习算法,提出了两个混合多Agent环境下动态策略的强化学习算法.该算法不仅能适应系统中其他Agent的行为策略和变化,而且能利用过去的行为历史制定更为准确的时间相关的行为策略.基于两个知名零和博弈,验证了该算法的收敛性和理性,在与最佳响应Agent的重复博弈中能获得更高的收益.

其他文献

浅谈灌木林生态效益

大力发展灌木林,充分发挥其在生态建设、生态安全、生态文明中的突出优势,已经成为经济和社会可持续发展的迫切需要。大力发展灌木林,必须采取有力措施,转变思想观念,纠正错

期刊

灌木林生态效益

中华民族共同体视域下的回族历史文化研究

铸牢中华民族共同体意识,这是基于中华民族源远流长的发展史及各民族共同利益角度提出的统一多民族国家建设的重大战略部署。回族作为中国56个民族大家庭的一员,有着与兄弟民

期刊

中华民族回族伊斯兰文化中华文化共同体Chinese NationHui NationalityMuslim CultureChinese Cultur

以色列农业面源污染防治实践及对我国的启示

我国是农业大国,农业在国民经济中占有至关重要的地位,以农业面源污染为代表的农村环境污染已成为我国农村经济社会可持续发展的主要制约因素。文章简要介绍了农业面源污染的

期刊

农村环境治理农业面源污染以色列乡村振兴污染防治绿色发展

莱山警方成功破获“民间互助”传销大案

披着"民间互助理财"外衣实施传销,刘某萍及同伙在短短两个月时间迅速聚拢起数千名传销人员,通过一个人为可以后台操作的网络平台,玩起了"钱生钱"游戏。随着游戏崩盘,这个隐秘

期刊

民间互助

初一学生时间管理倾向的团体辅导效果

目的:探索时间管理倾向团体心理辅导对初中生时间管理倾向、成就动机及拖延水平的影响。方法:采用问卷和实验相结合的方法。采用时间管理倾向量表对随机选取的435名初一学生

期刊

初一学生团体辅导时间管理倾向成就动机拖延

知和行之间的距离

一位同事对我说起最近发生的一件事。她班上有一个女生,学习成绩还不错,但比较爱玩。于是,她找那个女生谈话,希望她能少玩一点,学习更努力一点。为此,她还跟学生讲了不少道理

期刊

一所学习成绩谈话知和行女生

胞磷胆碱在神经科的应用

报道胞磷胆碱在神经科治疗脑动脉硬化、脑动脉硬化性痴呆，去大脑皮层状态，遗传性共济失调，迟发性运动障碍，乙型肝炎，眩晕，新生儿缺血缺氧性脑病等。

期刊

胞磷胆碱神经科临床应用

混合多Agent环境下动态策略强化学习算法

其他学术论文