论文部分内容阅读
多智能体系统是一个复杂的动态系统,系统中问题求解空间巨大,是人工智能领域研究的一个热点问题。智能体系统的一个主要特征是能够适应未知环境,其中学习能力是智能体系统的关键技术之一。针对单Agent系统对环境仅部分感知、搜索空间巨大、学习效率不高等缺点,本文在综合多种学习算法的基础上作了以下工作:首先引入了多智能体学习的一些理论知识,对强化学习和多Agent强化学习的研究现状和未来发展方向进行了阐述,介绍了目前常用的强化学习基本原理和使用的基本模型,探讨了强化学习中几种经典算法,在实验分析的基础上讨论了各参数对经典的强化学习算法的影响。在对自治协商模型的结构、原理,以及协商僵局的成因、对协商效用影响进行分析的基础上,利用基于博弈论的提议策略改进了原有的双边-多议题协商模型,采用Q学习算法对双边多议题协商过程中出现的僵局进行消解,支持多Agent系统在协商过程中的学习。实验表明,所建模型是可行和有效的。针对多Agent联合学习问题,提出了基于联合博弈的多Agent强化学习算法。该算法以成员联合博弈为理论框架,用长期回报矩阵对多个阶段的结果进行评估,使得联合行为的好坏程度得以准确表示;通过对多最优均衡解问题的描述,给出了基于联合博弈的多Agent学习算法,保证算法能够收敛到最优均衡解。最后用实际调度问题对算法进行了验证,并与Q-学习算法的实验结果进行了比较。