合作型多智能体决策技术的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:luckcarrier
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
合作型多智能体决策技术研究给定的一组智能体如何协调彼此的动作,与环境进行交互,共同完成一个长远的目标。合作型多智能体决策技术有相当多的应用背景。例如,机器人足球队,球员之间相互配合,共同为赢得比赛丽努力:机器人营救,多个机器人相互协调,以最快的速度,营救地震后的幸存者。本论文重点研究合作型多智能体决策技术中的三个课题:1)值函数分解;2)合作型多智能体协调技术;3)合作型多智能体强化学习技术。本论文研究的主要内容及取得的成果有以下几方面: 1.研究了合作型多智能体系统值函数分解技术,提出了一种基于角色特定上下文的值函数分解方法。该方法将系统值函数近似为一些局部值函数的和。每个局部值函数只包含需要协调彼此动作的一小部分智能体。提出的值函数分解方法紧致地描述了系统中智能体之间的协调关系,降低了“维数诅咒”带来的影响。 2.研究了合作型多智能体协调技术,证明了在合作型多智能体系统中,Pareto最优同时也是Nash平衡,并提出了构造合作型多智能体协调算法的一般方法。在此基础之上,提出了一种基于模拟退火的合作型多智能体协调算法。理论分析和实验都表明该算法比主流的合作型多智能体协调算法有更高的效率。 3.提出了一种新颖的多智能体Q学习算法。该算法运用值函数分解技术,有效地减少了学习过程中需要访问的状态一动作对。实验表明,在学习到几乎相同的值函数时,本文提出的学习算法的收敛速度比传统的多智能体强化学习算法快4倍。
其他文献
混沌现象是20世纪人类最重要的科学发现之一。在过去的20多年时间里,人们对混沌的研究主要是从一些实验及数值模拟来观察和量化混沌。随着对混沌现象认识的不断深入,如何应用混
近年来,随着数据库技术以及数字化技术的不断进步,针对高维时间序列的数据挖掘研究引起了越来越多学者广泛的兴趣。然而,由于数据维度的增多,大大增加了数据挖掘算法的复杂性,使得
从上个世纪九十年代初期开始,基于内容的多媒体检索就开始成为了在多媒体信息检索领域中的一个研究热点。并且基于内容的多媒体检索的研究也一直是计算机视觉领域中的一个非
汉语依存关系解析是句法分析的重要方法,而句法分析是自然语言处理的关键技术。汉语依存关系解析是基于汉语依存文法来确定句子中词与词之间的依存关系。词是句子结构中的最
伴随着Internet规模的迅速增长和内容的不断丰富,同时也给人们进行有效访问资源带来了困难。由于提问的不专指和文献资源量巨大的矛盾,系统往往会返回数量庞大的检索结果。若
图的交叉数是衡量图的非平面性的一个重要参数,计算图的交叉数是非常困难的,Garey和Johnson在1983年证明了计算图的交叉数问题是NP完全的。目前只有很少的图的交叉数的精确值是
随着下一代网络技术的发展,传统PSTN网络上的语音业务将逐步迁移到IP网络上。VoIP技术为基于IP网络的语音通信提供了强大而有效的手段,以该技术为基础的语音通信将成为下一代网
随着网络和网络技术的发展,全球互联网规模的日益扩大,网民数量的大量增加,人们在越来越依赖网络的同时,大规模的网络攻击和病毒扩散也日趋频繁。如何保障网络与信息系统的安
面向服务架构(SOA)已被广大企业所接受,为其提供有效的IT解决方案,使企业能够对市场做出快速反应。现有的SOA平台多是以Web服务为基础,建立在企业服务总线(ESB)上的一种技术
近几年来,长江中下游河道采砂一直处于难于管理状态。长江中下游河道范围广,江砂被盗采的地点多,采砂监管和执法队伍人员不足,有相当数量的非法采砂事件难以发现和处理。对非