基于多智能体系统的公约形成强化学习方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:luoweitao2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
公约形成,是多智能体系统(MAS)中普遍存在的一种通过去中心化方式而形成一致性行为的过程,是一种通过智能体自主决策达到MAS协调的有效方式。MAS的协调有助于减少各种资源和时间的冲突,并促进智能体之间的互利共赢。形成的一致性行为也称为公约,其通过离散的方式对智能体的预期行为进行约束,极大的促进了智能体之间的协调,实现智能体自身以及MAS的利益最大化。因此在MAS中,研究如何快速有效的形成公约是一直存在的热点话题。近些年,随着MAS对抽象个体建模的快速发展,MAS普遍应用于现实各种场景,包括通信、计算和社交网络等,对MAS有关公约形成研究也越来越多,并取得了大量显著的成果。本文回顾了公约形成研究领域目前的成果,通过对当前已有前沿研究成果的总结,将公约形成过程中,智能体如何自主决策分为三类:(1)基于spreading机制决策;(2)基于当前博弈收益直接决策;(3)基于行为价值函数决策。本文针对目前最先进的机制提出了创新和改进,同时提出了本文的研究内容。主要研究思路为:1)提出智能体的多局部信息表的学习模型来改进了传统收集学习(Collective learning)模型,该模型能够更好利用邻居的局部信息,加速了智能体学习,克服了传统小世界网络公约形成的局限性,提升了公约形成的效率,提出的模型称为多局部信息表(Multiple-Local information table,Multiple-L)学习。2)引入乐观更新的思想来改进现有基于Q-value最先进策略之一的多Q学习(Multiple-Q value Learning,MQ),改进后的策略包含价值函数双更新模块,模块中价值函数具有两种更新方式,不仅能够克服MQ策略形成公约不稳定的局限,还能大幅度的提高公约形成速度,本文将改进后的策略称为乐观多Q学习(Optimistic Multiple-Q value Learning,OMQL)。3)最后在前人研究成果的基础上,根据独立R学习(IndependentReward Learning,IR)策略和多R学习(Multiple-R Learning,MR)策略提出了本文基于收益(Reward)的第三个融合改进策略,称为独立或局部学习(Independent or Multiple Reward Learning,IMRL)策略,该策略包含收益双估计和价值函数双更新模块,分别对收益和价值函数进行重新计算,IMRL策略打破了已有IR策略和MR策略单一学习方式的局限,极大的加速了公约形成。对于上述提出的每种改进的模型和策略,都是基于智能体的强化学习。本文进行了大量的对比实验,实验结果表明:在不同网络拓扑结构、不同可选行为空间大小、不同网络大小下的三类对比实验中,形成公约的效率和有效性上都更优于以往的模型和策略。特别地,Multiple-L模型相较于传统的Collective learning模型在各种网络拓扑结构中公约形成效率成倍提升,而且在几种现有的网络生成图中,Multiple-L也能快速的形成公约;在与MQ策略进行的各类对比实验中,OMQL策略在公约形成的效率上至少有20%的提升,并且实验证明了比MQ策略更具稳定性;IMRL策略相对于单一的IR策略和MR策略,在不同对比实验下均有不同的优势,大部分情况下公约形成效率比IR、MR提升了15%左右。通过分析实验结果也不难看出,本文提出的模型和策略更具鲁棒性,在各种对比实验中,公约形成性能评估上有很大的优势。
其他文献
本文主要以视觉语言元素的角度,着重以人物题材为切入点,分析奥地利艺术家古斯塔夫·克里姆特绘画创作中对“平面化”图式结构的建立。古斯塔夫·克里姆特(Gustav Klimt,1862-1918)是欧洲十九世纪末至二十世纪初奥地利国宝级绘画艺术大师。此时西方现代主义正处于发展初期,社会背景的巨变以及科学领域的蓬勃发展等因素促使文艺领域的现代主义发展。从克里姆特“平面化”图式结构研究中可以窥见西方现代主
现实生活中存在着大量的复杂系统,将它们抽象成复杂网络进行研究分析已成为一种有效的研究手段。在网络科学中,簇结构已被证明是复杂网络上一种普遍存在的结构特征。挖掘网络的簇结构既对揭示复杂系统中隐藏的各种信息、功能以及变化特征具有重要作用,也对理解现实世界中的各种交互行为具有一定的指导意义,例如,针对社交关系的个性化推荐、预测不同蛋白质之间的互动关系以及挖掘社会媒体的传播行为等。网络聚类算法是识别复杂网
传统的英语阅读教学重点放在语言点的分析讲解上,忽视培养学生对语篇的分析能力。学生对阅读课的兴趣不高,加上缺乏相应的语篇知识,导致学生在面对阅读时,无章法可依,信心不足。2017年版的《普通高中英语课程标准》要求学生在阅读的过程中,深化对语言的理解,重视对语篇的赏析,提升阅读理解能力。因此,本研究决定把语篇分析的阅读方法应用到实际的阅读教学中,分析其对于学生阅读理解能力和学生对阅读理解的信心和兴趣的
在人工智能技术不断发展的今天,我们已经处于信息的海洋中。但是当我们进行决策、投资时,要如何综合多个层次、多个方面的信息做出最明智、最符合当下情况的决策是一个不可避免的问题。在多源信息融合的应用中,如何处理传感器收集到的数据对于信息融合来说是至关重要的一步。首先要对收集到的传感器信息进行有针对性的处理,这样才能保证最后的融合结果是符合直觉与常理的。但是在实际的应用中由于传感器本身的故障、物理特性或者
土地承载着人类的社会活动,是人类社会发展的基础,与我们的生活息息相关,随着经济社会的快速发展,土地成为越来越重要的资源,合法保护和适当利用土地资源变得越来越重要。土地质量是土地的综合属性,体现了自然因素、人类活动等对土地的影响,通过土地质量地球化学评价可以得到土壤有益元素、有害元素等的含量水平、空间分布,以及土地质量的综合水平。了解研究区土地质量的详细情况,对土地利用规划、环境保护和可持续发展有重
从人工智能这一概念被首次提出至今,游戏博弈一直都是其最具技术和挑战性的主要研究领域和方向之一,博弈又可以划分为完全信息博弈和非完全信息博弈。完全信息博弈主要指在进行博弈时,信息都是完全可知的;非完全信息博弈的主要特征是智能体进行博弈时无法从局面信息中获得所有的信息。很多博弈都实际上是基于非完全的信息博弈模式来进行开发和对局的,例如带手牌的德州扑克等牌类,麻将,有战争迷雾的即时战略游戏等。真实世界的
随着人工智能领域的蓬勃发展,人工智能技术在人们日常生活中的应用日益广泛。其中机器学习日渐成为人工智能中最不可或缺的重要技术,而深度强化学习以其独特的学习模式成为了机器学习领域最炙手可热的研究方向之一。在深度强化学习中,模型的学习不需要提前采集大量标注的样本数据用于训练,也不需要考虑样本覆盖率问题,而是通过其独特的交互学习模式边学习边采集训练数据,甚至还能实现自我学习。这也使得深度强化学习在需要短时
随着近年来电子存储技术的不断进步与发展,以及科学界的学术数据的指数增长,人们得以在更高规模的数据集上对科学事业进行更深层次的探索。随着存储技术的发展和计算能力的提升,这些数据的可获取性和可分析性得到极大增强,同时也催生了一门新兴的交叉学科:科学学(Science of Science)。科学学旨在通过网络科学、数据科学和人工智能的理论基础与技术手段,对这些由学术大数据构成的复杂系统进行挖掘与分析,
乡村聚落作为农民生产、生活及进行各种社会经济活动的主要载体,是人地关系相互作用最为密切的地域单元。伴随着城镇化进程的不断加速,乡村聚落布局不合理、土地利用效率低下、功能配置不完善等问题严重制约着乡村发展,对城乡统筹和乡村振兴战略的实施推进带来了巨大阻碍。在当前乡村社会经济转型的关键时期,针对围绕乡村聚落产生的各种问题,更需要科学有序引导乡村建设规划,协调乡村人地关系健康可持续发展。在此背景下,为适
本论文研究一类基于双曲正切模型的不确定离散系统的鲁棒镇定问题和H∞控制问题,主要结果包括以下三个部分: 第一部分:研究了一类基于双曲正切模型的不确定离散系统的状态反馈H∞控制问题。不确定参数具有线性分式形式,范数有界形式是其特殊形式。通过函数阵是PDD矩阵的李雅普诺夫函数的方法,给出了系统稳定且满足H∞性能界的具有线性矩阵不等式(LMI)形式的充分条件和H∞状态反馈控制器的设计方法。最后,通