论文部分内容阅读
从日常生活到全球挑战,合作问题,即智能体通过交互共同改善各自福利,广泛存在且规模不一而足。由于人工智能驱动的机器在我们的生活中发挥着越来越大的作用,因此通过算法赋予它们针对不同规模的问题,与他人(人类和机器)进行合作所需的能力将非常重要。多智能体强化学习作为强化学习、控制论、博弈论、深度学习以及社会心理学的交叉领域,近年来在求解复杂合作任务上取得了令人瞩目的成绩。在多智能体强化学习中,智能体外部环境的变化,以及获得的奖励,都不再仅依赖于智能体自身采取的动作,还需要考虑其他智能体动作的影响。这使得一个能够促进智能体之间紧密合作的多智能体强化学习算法,不可避免地需要赋予智能体建模其余智能体的能力。因而,本文将建模其余智能体的能力由高到低分为行为理解、能力理解以及意图理解三个层面。并且,为了实现训练成本与算法性能之间的均衡,也为了更加凸显不同层次能力对解决合作问题的有效性,本文将多智能体合作问题由难度从小到大分为三类,即同质、固定数目多智能体场景下学习合作问题,异质、时变数目多智能体场景下学习合作问题,以及大规模多智能体场景下学习合作问题,分别对应着上述三个层次的能力,并抽象出各自对应的关键研究问题,即非平稳问题、关系建模问题以及组织控制问题。针对行为理解中的非平稳问题,本文引入了一个新的概念,即δ-平稳性度量,来明确地计算智能体在多智能体场景中不断学习而产生的策略序列的非平稳性。且本文进一步证明了,δ-平稳性度量被所有智能体联合策略的KL-散度所约束。本文进而将所有智能体的联合策略建模为一个成对的马尔可夫随机场,并提出一个基于消息传递的镜像下降置信区域分解算法(MAMT)来更准确地估计联合策略的KL-散度。在具有不同复杂度学习合作任务中,与基准算法相比,镜像下降置信区域分解算法可以带来明显和稳定的性能改进,且算法具有良好的可扩展性。针对能力理解中的关系建模问题,本文提出了一种合作多智能体强化学习算法——分层动作空间表示算法(SCORE),采用图注意力网络来捕捉异质智能体之间的依赖关系。为了促进异质智能体相互之间更准确的依赖关系建模,分层动作空间表示算法引入了一个分层变分自动编码器,它将所有异质智能体的动作空间映射到一个共享的隐含动作空间。最后,本文还提出了一种新颖的迁移学习框架,使得不用重新训练分层动作空间表示算法,在保留已有策略的情况下快速适应包含新类型智能体的多智能体环境。在概念验证任务和精准农业任务上的性能实验表明,相比基准算法,分层动作空间表示算法能够更准确地对异质智能体的依赖关系进行建模,同时在时变数目多智能体场景下具有显著的可迁移优势。针对意图理解中的组织控制问题,本文提出的合作多智能体强化学习算法——结构性合作涌现算法(ROCHICO)——首先通过基于独立多智能体强化学习的强化组织控制模块,来学习自适应分组策略;接着,在根据强化组织控制模块形成若干团队后,结构性合作涌现算法引入了一种新颖的自监督与无监督结合的方法来对所有智能体的联合意图进行分解,学习到每个团队对应的多样化团队意图;在此之后,结构性合作涌现算法基于变分自动编码器智能体的个体意图进行建模,并引入了具有共识约束的层次化意图模块来促进智能体对团队内智能体的个体意图理解,以及对团队外智能体的群体意图理解;最后,基于多智能体决策模块,结构性合作涌现算法可以输出最终的多智能体合作策略。在四个大规模多智能体合作任务上的性能实验表明,结构性合作涌现算法能够灵活地根据其他智能体的策略以及任务完成情况,对智能体进行分组,并进行精准有效的个体意图以及群体意图理解,在探索效率和合作强度方面都要明显优于基准算法。此外,智能体之间的通信将更加有利于智能体对其余智能体的能力以及意图等高层次对象进行理解,因此本文将中心化隐式通信作为行为、能力以及意图理解的基石。然而,中心化的隐式通信框架在更多的现实问题中将受到诸多限制,例如维度灾难、隐私保护以及单点故障等。针对中心化隐式通信框架的诸多现实限制,本文提出了一个灵活的完全去中心化的演员-评论家合作多智能体强化学习框架(F2A2),来完全去中心化地对算法进行训练,并使得去中心化算法的性能尽可能逼近中心化算法的性能。为了解决块坐标梯度下降带来梯度计算偏差,该框架使用了基于主对偶混合梯度下降的优化算法框架。该框架还通过参数共享机制,以及基于心智理论和在线监督学习的智能体建模技术,降低了由于去中心化而带来的通信负载。在复杂合作任务中的充分实验表明,基于该框架的合作促进多智能体强化学习实例化算法,在显著更少的通信开销下,性能上明显优于基准去中心化算法,且能够逼近甚至(在某些情况下)超过中心化算法的性能。总而言之,本文所研究的核心内容在于,基于隐式通信,显式地赋予智能体对其余智能体的行为、能力以及意图的理解能力,来促进多智能体系统能够更快速、更稳定地涌现出合作行为。针对不同层次的理解问题,通过置信区域分解、动作空间表示学习以及结构性合作涌现,本文分别解决了其在对应典型场景中的典型问题;此外,为了解决中心化隐式通信在现实问题中的诸多限制,本文提出了完全去中心化的隐式通信框架,使得包括但不限于本文提出的合作促进多智能体强化学习算法能更有效地在现实场景中训练以及部署。