混合多Agent环境下动态策略强化学习算法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:ysli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习在多Agent系统的协作和行为决策中得到广泛关注和深入研究.分析基于均衡解和最佳响应的学习算法,提出了两个混合多Agent环境下动态策略的强化学习算法.该算法不仅能适应系统中其他Agent的行为策略和变化,而且能利用过去的行为历史制定更为准确的时间相关的行为策略.基于两个知名零和博弈,验证了该算法的收敛性和理性,在与最佳响应Agent的重复博弈中能获得更高的收益.
其他文献
大力发展灌木林,充分发挥其在生态建设、生态安全、生态文明中的突出优势,已经成为经济和社会可持续发展的迫切需要。大力发展灌木林,必须采取有力措施,转变思想观念,纠正错
铸牢中华民族共同体意识,这是基于中华民族源远流长的发展史及各民族共同利益角度提出的统一多民族国家建设的重大战略部署。回族作为中国56个民族大家庭的一员,有着与兄弟民
我国是农业大国,农业在国民经济中占有至关重要的地位,以农业面源污染为代表的农村环境污染已成为我国农村经济社会可持续发展的主要制约因素。文章简要介绍了农业面源污染的
披着"民间互助理财"外衣实施传销,刘某萍及同伙在短短两个月时间迅速聚拢起数千名传销人员,通过一个人为可以后台操作的网络平台,玩起了"钱生钱"游戏。随着游戏崩盘,这个隐秘
期刊
目的:探索时间管理倾向团体心理辅导对初中生时间管理倾向、成就动机及拖延水平的影响。方法:采用问卷和实验相结合的方法。采用时间管理倾向量表对随机选取的435名初一学生
一位同事对我说起最近发生的一件事。她班上有一个女生,学习成绩还不错,但比较爱玩。于是,她找那个女生谈话,希望她能少玩一点,学习更努力一点。为此,她还跟学生讲了不少道理
报道胞磷胆碱在神经科治疗脑动脉硬化、脑动脉硬化性痴呆,去大脑皮层状态,遗传性共济失调,迟发性运动障碍,乙型肝炎,眩晕,新生儿缺血缺氧性脑病等。