Multi-agent reinforcement learning based on policies of global objective

来源 :Journal of Systems Engineering and Electronics | 被引量 : 0次 | 上传用户：wdc145

【摘要】

：

In general sum games, taking all agent’s collective rationality into account, we define agents’ global objective, and propose a novel multi agent reinforcemen

【作者】

：

张化祥黄上腾

【机构】

：

Dept .of Computer Science ,Shandong Normal Univ ,Dept .of Computer Science and Engineering,Shanghai

【出处】

：

Journal of Systems Engineering and Electronics

【发表日期】

：

2005年03期

【关键词】

：

reinforcement games holds rationality assumption proof satisfy compute convergen

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

In general sum games, taking all agent’s collective rationality into account, we define agents’ global objective, and propose a novel multi agent reinforcement learning(RL) algorithm based on global policy. In each learning step, all agents commit to select the global policy to achieve the global goal. We prove this learning algorithm converges given certain restrictions on stage games of learned Q values, and show that it has quite lower computation time complexity than already developed multi agent learning algorithms for general sum games. An example is analyzed to show the (algorithm’s) merits. In general sum games, taking all agent’s collective rationality into account, we define agents’ global objective, and propose a novel multi agent reinforcement learning algorithm (RL) algorithm based on global policy. In each learning step, all agents commit to select the global policy to achieve the global goal. We prove this algorithm algorithm converges given certain restrictions on stage games of learned Q values, and show that it has quite lower computation time complexity than already developed multi-agent learning algorithms for general sum games. An example is analyzed to show the (algorithm’s) merits.

其他文献

足球运动员意识培养的研究

意识是衡量一名运动员水平高低的重要因素.足球意识的培养需要长期的训练、比赛的积累,足球意识的培养必须贯穿于足球运动员成长的始终.

期刊

足球运动员培养和训练意识足球意识

电视导播素质探讨

随着我国电视行业的发展,电视艺术也越来越呈现多样性,集艺术、技术和电视意识于一体。电视制作手段也越来越先进。大型活动以及现场直播等形式的出现,势必要求进行现场的切

期刊

电视导播节目直播电视艺术制作手段现场报道在现场时政新闻大型晚会电视节目电视观众

论维吾尔文手机报的现状

维吾尔文手机报2009年6月22日正式开通运行.这意味着新疆媒体在适应现代科技发展要求方面迈出了新的一步.它的出现给传统媒体带来了时代的革命性阶段了.维吾尔群众初步进入了

期刊

手机报维吾尔文手机报现状

新疆少数民族民间传统体育的法律保护

在新疆跨越式大发展的大环境下,运用法律手段调整和保护新疆少数民族民间传统体育文化是最为有效的途径之一.新疆现行少数民族民间传统体育文化的立法保护现状不容乐观,立法

期刊

民族体育立法保护

“学者散文”漫议

在散文这个广大无垠的疆土上活动着的人，主要是被称为作家的写作群体，而不是学者。纯粹意义上的作家，是以艺术创作为业的人，而不是以“学”为业的人，把他们的散文称之为艺术散文，既是一种应该，也是一种尊重。而“学者散文”其实是从写作者的素质与条件这个意义而言的，具有学养底蕴、学识功底的人所写出的具有知性价值、文化品位与学识功底的散文，即可谓学者散文，并非指其写作者具有什么样的身份。在作家中仍然有很多人本身

期刊

学者散文作家写作者概念艺术散文艺术创作学术功底文化品位军事部门性价值人本身兴趣素质身份商场儒商群体活动

关于企业人力资源绩效管理的问题及对策浅析

绩效管理作为人力资源的重要组成部分,是一种现代化的企业管理手段,对企业的发展有着不可替代的作用.企业人力资源绩效管理的主要目的就是实现企业利润的最大化,目前来讲,企

期刊

中小企业人力资源管理绩效管理

试论公安机关实施经费预算绩效管理

公共部门绩效预算在当前属于公共预算的前沿问题.公安机关作为政府重要的公共部门之一,其绩效预算自然也属于学科前沿的重大问题.为了深入贯彻落实科学发展观,完善公安机关经

期刊

公安机关经费预算绩效管理改革

湖北大冶县苧蔴留种调查报告

苧麻留种在种子繁殖中占相当重要的地位,而留种品种与种子质量的好坏,是种子繁殖成败的关键之一。近年来根据试验研究与调查总结群众经验的结果,提出选择优良品种的壮龄麻或

期刊

种子繁殖种子产量青麻江西宜春种子品质苧麻菜园调查报告麻农试验研究

新课程标准下学校体育课堂教学目标的实现研究

新课标着眼于学生可持续发展能力培养的发展性领域的目标,关注学生的价值观与情感态度在学习活动中的作用.教会学生根据实际情况制定相应的学习目标,并为之付出不懈的努力.本

期刊

体育与健康新课改体育教学目标目标设置目标实现

两面针药材对肿瘤细胞NCI-H460和SK-OV-3“谱-效”关系的研究

目的：以芸香科植物两面针(Zanthoxylum nitidum (Roxb.) DC.)为研究对象,以NCI-H460、SK-OV-3两种肿瘤细胞为药效模型,构建两面针的指纹图谱。在两面针的HPLC指纹图谱和其抗肿瘤活性的基础上,通过数据处理,找到两面针“化学谱-药效”之间的对应关系。方法：1.两面针药材抗肿瘤活性部位的筛选：两面针药材成分复杂,分别甲醇、乙醇、乙酸乙酯、氯仿、石油醚5种不同极性

学位

指纹图谱两面针MTT法后退法

Multi-agent reinforcement learning based on policies of global objective

与本文相关的学术论文