联合博弈框架下的多Agent强化学习算法研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户：wcf333

【摘要】

：

多智能体系统是一个复杂的动态系统,系统中问题求解空间巨大,是人工智能领域研究的一个热点问题。智能体系统的一个主要特征是能够适应未知环境,其中学习能力是智能体系统的

【作者】

：

黄付亮

【机构】

：

太原科技大学

【出处】

：

太原科技大学

【发表日期】

：

2011年期

【关键词】

：

多智能体强化学习协作协商联合博弈

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多智能体系统是一个复杂的动态系统,系统中问题求解空间巨大,是人工智能领域研究的一个热点问题。智能体系统的一个主要特征是能够适应未知环境,其中学习能力是智能体系统的关键技术之一。针对单Agent系统对环境仅部分感知、搜索空间巨大、学习效率不高等缺点,本文在综合多种学习算法的基础上作了以下工作:首先引入了多智能体学习的一些理论知识,对强化学习和多Agent强化学习的研究现状和未来发展方向进行了阐述,介绍了目前常用的强化学习基本原理和使用的基本模型,探讨了强化学习中几种经典算法,在实验分析的基础上讨论了各参数对经典的强化学习算法的影响。在对自治协商模型的结构、原理,以及协商僵局的成因、对协商效用影响进行分析的基础上,利用基于博弈论的提议策略改进了原有的双边-多议题协商模型,采用Q学习算法对双边多议题协商过程中出现的僵局进行消解,支持多Agent系统在协商过程中的学习。实验表明,所建模型是可行和有效的。针对多Agent联合学习问题,提出了基于联合博弈的多Agent强化学习算法。该算法以成员联合博弈为理论框架,用长期回报矩阵对多个阶段的结果进行评估,使得联合行为的好坏程度得以准确表示;通过对多最优均衡解问题的描述,给出了基于联合博弈的多Agent学习算法,保证算法能够收敛到最优均衡解。最后用实际调度问题对算法进行了验证,并与Q-学习算法的实验结果进行了比较。

其他文献

基于WebGIS的数字城市管理部件在线更新系统的研究

随着Internet技术的不断发展和人们对地理信息系统(GIS)需求的不断增加，WebGIS已成为了当今GIS的研究热点和方向之一。WebGIS，即万维网地理信息系统，是基于Internet上的地理信息

学位

万维网地理信息系统异步刷新机制数字城管部件在线更新

延迟容忍移动传感器网络中基于接收者的分阶段数据传输协议

无线传感器网络是一类新兴的网络,它主要通过分布在区域内的传感器节点来感知收集附近的相关数据,并将数据传输到汇聚节点。收集到的数据经过处理之后,最终传输给终端用户。

学位

延迟容忍移动传感器网络路由协议分阶段数据传输举手机制

社会情感优化算法混合策略研究

社会情感优化算法借鉴了社会学、社会心理学、组织行为学等有关人类群体的形成、进化及决策等方面的研究成果,考虑了情绪在人类决策行为中的作用以及外界信息对人类情绪的影

学位

社会情感优化算法Metropolis准则二次插值法非线性方程组

联合博弈框架下的多Agent强化学习算法研究

与本文相关的学术论文