Multi-agent reinforcement learning based on policies of global objective

来源 :Journal of Systems Engineering and Electronics | 被引量 : 0次 | 上传用户:wdc145
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
In general sum games, taking all agent’s collective rationality into account, we define agents’ global objective, and propose a novel multi agent reinforcement learning(RL) algorithm based on global policy. In each learning step, all agents commit to select the global policy to achieve the global goal. We prove this learning algorithm converges given certain restrictions on stage games of learned Q values, and show that it has quite lower computation time complexity than already developed multi agent learning algorithms for general sum games. An example is analyzed to show the (algorithm’s) merits. In general sum games, taking all agent’s collective rationality into account, we define agents’ global objective, and propose a novel multi agent reinforcement learning algorithm (RL) algorithm based on global policy. In each learning step, all agents commit to select the global policy to achieve the global goal. We prove this algorithm algorithm converges given certain restrictions on stage games of learned Q values, and show that it has quite lower computation time complexity than already developed multi-agent learning algorithms for general sum games. An example is analyzed to show the (algorithm’s) merits.
其他文献
意识是衡量一名运动员水平高低的重要因素.足球意识的培养需要长期的训练、比赛的积累,足球意识的培养必须贯穿于足球运动员成长的始终.
随着我国电视行业的发展,电视艺术也越来越呈现多样性,集艺术、技术和电视意识于一体。电视制作手段也越来越先进。大型活动以及现场直播等形式的出现,势必要求进行现场的切
维吾尔文手机报2009年6月22日正式开通运行.这意味着新疆媒体在适应现代科技发展要求方面迈出了新的一步.它的出现给传统媒体带来了时代的革命性阶段了.维吾尔群众初步进入了
在新疆跨越式大发展的大环境下,运用法律手段调整和保护新疆少数民族民间传统体育文化是最为有效的途径之一.新疆现行少数民族民间传统体育文化的立法保护现状不容乐观,立法
在散文这个广大无垠的疆土上活动着的人,主要是被称为作家的写作群体,而不是学者。纯粹意义上的作家,是以艺术创作为业的人,而不是以“学”为业的人,把他们的散文称之为艺术散文,既是一种应该,也是一种尊重。而“学者散文”其实是从写作者的素质与条件这个意义而言的,具有学养底蕴、学识功底的人所写出的具有知性价值、文化品位与学识功底的散文,即可谓学者散文,并非指其写作者具有什么样的身份。在作家中仍然有很多人本身
绩效管理作为人力资源的重要组成部分,是一种现代化的企业管理手段,对企业的发展有着不可替代的作用.企业人力资源绩效管理的主要目的就是实现企业利润的最大化,目前来讲,企
公共部门绩效预算在当前属于公共预算的前沿问题.公安机关作为政府重要的公共部门之一,其绩效预算自然也属于学科前沿的重大问题.为了深入贯彻落实科学发展观,完善公安机关经
苧麻留种在种子繁殖中占相当重要的地位,而留种品种与种子质量的好坏,是种子繁殖成败的关键之一。近年来根据试验研究与调查总结群众经验的结果,提出选择优良品种的壮龄麻或
新课标着眼于学生可持续发展能力培养的发展性领域的目标,关注学生的价值观与情感态度在学习活动中的作用.教会学生根据实际情况制定相应的学习目标,并为之付出不懈的努力.本
目的:以芸香科植物两面针(Zanthoxylum nitidum (Roxb.) DC.)为研究对象,以NCI-H460、SK-OV-3两种肿瘤细胞为药效模型,构建两面针的指纹图谱。在两面针的HPLC指纹图谱和其抗肿瘤活性的基础上,通过数据处理,找到两面针“化学谱-药效”之间的对应关系。方法:1.两面针药材抗肿瘤活性部位的筛选:两面针药材成分复杂,分别甲醇、乙醇、乙酸乙酯、氯仿、石油醚5种不同极性