联合博弈框架下的多Agent强化学习算法研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:wcf333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体系统是一个复杂的动态系统,系统中问题求解空间巨大,是人工智能领域研究的一个热点问题。智能体系统的一个主要特征是能够适应未知环境,其中学习能力是智能体系统的关键技术之一。针对单Agent系统对环境仅部分感知、搜索空间巨大、学习效率不高等缺点,本文在综合多种学习算法的基础上作了以下工作:首先引入了多智能体学习的一些理论知识,对强化学习和多Agent强化学习的研究现状和未来发展方向进行了阐述,介绍了目前常用的强化学习基本原理和使用的基本模型,探讨了强化学习中几种经典算法,在实验分析的基础上讨论了各参数对经典的强化学习算法的影响。在对自治协商模型的结构、原理,以及协商僵局的成因、对协商效用影响进行分析的基础上,利用基于博弈论的提议策略改进了原有的双边-多议题协商模型,采用Q学习算法对双边多议题协商过程中出现的僵局进行消解,支持多Agent系统在协商过程中的学习。实验表明,所建模型是可行和有效的。针对多Agent联合学习问题,提出了基于联合博弈的多Agent强化学习算法。该算法以成员联合博弈为理论框架,用长期回报矩阵对多个阶段的结果进行评估,使得联合行为的好坏程度得以准确表示;通过对多最优均衡解问题的描述,给出了基于联合博弈的多Agent学习算法,保证算法能够收敛到最优均衡解。最后用实际调度问题对算法进行了验证,并与Q-学习算法的实验结果进行了比较。
其他文献
随着Internet技术的不断发展和人们对地理信息系统(GIS)需求的不断增加,WebGIS已成为了当今GIS的研究热点和方向之一。WebGIS,即万维网地理信息系统,是基于Internet上的地理信息
无线传感器网络是一类新兴的网络,它主要通过分布在区域内的传感器节点来感知收集附近的相关数据,并将数据传输到汇聚节点。收集到的数据经过处理之后,最终传输给终端用户。
社会情感优化算法借鉴了社会学、社会心理学、组织行为学等有关人类群体的形成、进化及决策等方面的研究成果,考虑了情绪在人类决策行为中的作用以及外界信息对人类情绪的影