合作促进多智能体强化学习

来源 :华东师范大学 | 被引量 : 0次 | 上传用户：liongliong435

【摘要】

：

【作者】

：

李文浩

【出处】

：

华东师范大学

【发表日期】

：

2020年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

从日常生活到全球挑战,合作问题,即智能体通过交互共同改善各自福利,广泛存在且规模不一而足。由于人工智能驱动的机器在我们的生活中发挥着越来越大的作用,因此通过算法赋予它们针对不同规模的问题,与他人（人类和机器）进行合作所需的能力将非常重要。多智能体强化学习作为强化学习、控制论、博弈论、深度学习以及社会心理学的交叉领域,近年来在求解复杂合作任务上取得了令人瞩目的成绩。在多智能体强化学习中,智能体外部环境的变化,以及获得的奖励,都不再仅依赖于智能体自身采取的动作,还需要考虑其他智能体动作的影响。这使得一个能够促进智能体之间紧密合作的多智能体强化学习算法,不可避免地需要赋予智能体建模其余智能体的能力。因而,本文将建模其余智能体的能力由高到低分为行为理解、能力理解以及意图理解三个层面。并且,为了实现训练成本与算法性能之间的均衡,也为了更加凸显不同层次能力对解决合作问题的有效性,本文将多智能体合作问题由难度从小到大分为三类,即同质、固定数目多智能体场景下学习合作问题,异质、时变数目多智能体场景下学习合作问题,以及大规模多智能体场景下学习合作问题,分别对应着上述三个层次的能力,并抽象出各自对应的关键研究问题,即非平稳问题、关系建模问题以及组织控制问题。针对行为理解中的非平稳问题,本文引入了一个新的概念,即δ-平稳性度量,来明确地计算智能体在多智能体场景中不断学习而产生的策略序列的非平稳性。且本文进一步证明了,δ-平稳性度量被所有智能体联合策略的KL-散度所约束。本文进而将所有智能体的联合策略建模为一个成对的马尔可夫随机场,并提出一个基于消息传递的镜像下降置信区域分解算法（MAMT）来更准确地估计联合策略的KL-散度。在具有不同复杂度学习合作任务中,与基准算法相比,镜像下降置信区域分解算法可以带来明显和稳定的性能改进,且算法具有良好的可扩展性。针对能力理解中的关系建模问题,本文提出了一种合作多智能体强化学习算法——分层动作空间表示算法（SCORE）,采用图注意力网络来捕捉异质智能体之间的依赖关系。为了促进异质智能体相互之间更准确的依赖关系建模,分层动作空间表示算法引入了一个分层变分自动编码器,它将所有异质智能体的动作空间映射到一个共享的隐含动作空间。最后,本文还提出了一种新颖的迁移学习框架,使得不用重新训练分层动作空间表示算法,在保留已有策略的情况下快速适应包含新类型智能体的多智能体环境。在概念验证任务和精准农业任务上的性能实验表明,相比基准算法,分层动作空间表示算法能够更准确地对异质智能体的依赖关系进行建模,同时在时变数目多智能体场景下具有显著的可迁移优势。针对意图理解中的组织控制问题,本文提出的合作多智能体强化学习算法——结构性合作涌现算法（ROCHICO）——首先通过基于独立多智能体强化学习的强化组织控制模块,来学习自适应分组策略;接着,在根据强化组织控制模块形成若干团队后,结构性合作涌现算法引入了一种新颖的自监督与无监督结合的方法来对所有智能体的联合意图进行分解,学习到每个团队对应的多样化团队意图;在此之后,结构性合作涌现算法基于变分自动编码器智能体的个体意图进行建模,并引入了具有共识约束的层次化意图模块来促进智能体对团队内智能体的个体意图理解,以及对团队外智能体的群体意图理解;最后,基于多智能体决策模块,结构性合作涌现算法可以输出最终的多智能体合作策略。在四个大规模多智能体合作任务上的性能实验表明,结构性合作涌现算法能够灵活地根据其他智能体的策略以及任务完成情况,对智能体进行分组,并进行精准有效的个体意图以及群体意图理解,在探索效率和合作强度方面都要明显优于基准算法。此外,智能体之间的通信将更加有利于智能体对其余智能体的能力以及意图等高层次对象进行理解,因此本文将中心化隐式通信作为行为、能力以及意图理解的基石。然而,中心化的隐式通信框架在更多的现实问题中将受到诸多限制,例如维度灾难、隐私保护以及单点故障等。针对中心化隐式通信框架的诸多现实限制,本文提出了一个灵活的完全去中心化的演员-评论家合作多智能体强化学习框架（F2A2）,来完全去中心化地对算法进行训练,并使得去中心化算法的性能尽可能逼近中心化算法的性能。为了解决块坐标梯度下降带来梯度计算偏差,该框架使用了基于主对偶混合梯度下降的优化算法框架。该框架还通过参数共享机制,以及基于心智理论和在线监督学习的智能体建模技术,降低了由于去中心化而带来的通信负载。在复杂合作任务中的充分实验表明,基于该框架的合作促进多智能体强化学习实例化算法,在显著更少的通信开销下,性能上明显优于基准去中心化算法,且能够逼近甚至（在某些情况下）超过中心化算法的性能。总而言之,本文所研究的核心内容在于,基于隐式通信,显式地赋予智能体对其余智能体的行为、能力以及意图的理解能力,来促进多智能体系统能够更快速、更稳定地涌现出合作行为。针对不同层次的理解问题,通过置信区域分解、动作空间表示学习以及结构性合作涌现,本文分别解决了其在对应典型场景中的典型问题;此外,为了解决中心化隐式通信在现实问题中的诸多限制,本文提出了完全去中心化的隐式通信框架,使得包括但不限于本文提出的合作促进多智能体强化学习算法能更有效地在现实场景中训练以及部署。

其他文献

多策略融合的差分进化算法及应用研究

进化算法是一类具有全局搜索性能的群智能优化方法,主要用于求解非凸、不可微、离散优化问题。差分进化算法是一种改进的进化算法模型,基于不同点之间的复合矢量方向产生新个体,具有一定的启发式搜索特征。它具有基因信息融合好、结构简洁、鲁棒性强等优势,在解决常见的最优化问题方面具有一定的优势。随着大数据时代的到来,工程和社会实践领域出现的最优化问题规模越来越大、结构日趋复杂,包括差分进化算法在内的经典进化算法

学位

基于度和特征根的有向复杂网络熵的研究

熵是用来研究复杂网络复杂性问题的方法.熵最早由德国物理学家克劳修斯在1865年提出,1948年香农将其引入到了信息论中,泛指一个系统内在无序程度的度量,之后熵在各个科学领域中得到了广泛研究和应用.于1955年由Rashevsky和Trucco在图论中引入了熵的概念,Mowshowitz对无向图的图熵进行了系统深入的研究,自此图熵进入了研究者们的视野,并且对于无向图基于度幂、距离、独立集、特征根等不

学位

长江-澜沧江源区史前人类活动与环境适应研究

青藏高原是全球海拔最高的高原,也是全球自然环境最为极端严酷的区域之一,因此人类对高原极端环境的适应能力与机制成为国内外学术界研究的热点。长江-澜沧江源区作为青藏高原高海拔、严寒环境的代表,是高原腹地极端环境的典型区域,对其史前人类活动的研究,就是早期人类占据高原腹地最为极端环境地带的历程与适应过程的研究,其具有特殊而重要的科学意义。近年来,随着研究的不断深入,青藏高原古人类适应极端环境的研究已取得

学位

弧菌分泌的胞外金属蛋白酶对胶原蛋白的作用机制研究

胶原蛋白是动物细胞外基质（extracellular matrix,ECM）的主要组成部分,为皮肤、骨骼、肌腱等结缔组织提供结构框架。胶原蛋白是由三螺旋的原胶原蛋白分子通过分子间各种相互作用以及多种共价交联组装而成,其功能的发挥也依赖于超分子组装过程。胶原蛋白酶是指能够在生理条件下水解天然胶原蛋白的蛋白酶,根据来源不同被分为动物胶原酶和微生物胶原酶。致病性弧菌是人类和某些水生生物的病原体,其分泌的

学位

褪黑素对造影剂诱导的小鼠急性肾损伤的作用及机制研究

研究背景放射性碘造影剂广泛应用于临床侵入性影像学检查。造影剂导致的急性肾损伤（contrast-induced acute kidney injury,CI-AKI）是临床诊断和介入手术中血管内注射造影剂（Contrastmedia,CM）后发生的重要并发症,是住院患者在医院内获得性急性肾衰竭的第三大常见原因,它使得患者住院时间延长并且影响远期预后,同时也使院内死亡率增加,社会医疗负担加重。尽管临

学位

二维材料中铁电和谷效应的理论研究

电子所具有的电荷、自旋和谷自由度催生了传统电子学、自旋电子学和谷电子学,使得这些具有双元态的自由度可作为信息的载体用于操控和处理数据,成为现代化信息产业的理论基础和技术核心。传统电子学的蓬勃发展奠定了过去几十年的信息产业。传统电子学发展至今已经非常成熟了,受到热力学的限制,发展的趋势逐渐缓慢了下来。自旋电子学的发展和谷电子学的兴起将成为传统电子学的后备力量。特别是多铁性的出现以及多铁性与这些自由度

学位

贸易自由化、职级流动及劳资争议 ——基于民国时期租界历史数据的分析

经济全球化的时代,贸易对全球主要经济体产生了重要的影响。贸易自由化作为加入全球化浪潮中的重要手段对国内经济有着深刻的影响,主要表现在增长、产业结构、就业等多个方面。劳动力作为生产环节中的基本要素,其就业、晋升、权益保护等多个方面都可能对社会经济产生重要作用。回顾历史,在经济社会的转型阶段,解决好劳工问题始终是推动社会稳定发展的关键。本文采用1918年-1941年间上海历史数据分析了贸易自由化对职级

学位

点边失效下网络的混合可靠度研究

随着科学技术的迅速发展,各种各样的复杂网络出现在人类社会中,并且影响和改变了人们的生活、工作方式.但是,网络中的节点和边会因各种因素发生故障,可能会导致整个网络无法正常运行,甚至造成重大损失.因此,研究网络的可靠性具有一定的现实意义和应用价值.在现实网络中可能会出现节点失效或边失效或节点和边同时失效的情况.在节点失效下或边失效下,对于网络可靠性的研究成果比较丰富,但节点和边同时失效下研究成果相对较

学位

中国社会个体化对居民商业保险购买行为的影响研究

集体主义文化根植于中国,源远流长,对中国经济与社会发展产生的影响广泛而深刻。但随着改革开放以来的制度变迁、科技进步以及文化发展,中国社会一直在向个体化的方向发展。居民逐步从传统的制度、组织与文化中脱离出来,嵌入到一个更加鼓励竞争、尊重个性、自担风险的个体化社会,更加独立地决策,追求“自己的生活”,但自己也要承担由此增加的种种风险。女性更加独立的同时往往面临着家庭工作冲突的压力,农民进城谋生的同时面

学位

上海典型污染事件大气PM2.5中PAHs和碳气溶胶赋存及影响机制研究

大气环境中的多环芳烃（PAHs）和黑碳污染长期以来受到国内外研究学者的广泛关注。长三角地区人口密集,工业发达,尤其是经济高速发展的上海地区,城市化和工业化进程快,PAHs排放密度高,造成了诸多大气环境问题,同时对人体健康产生极大危害。本研究以上海市作为主要研究区域,基于城市大气环境过程研究视角,进行了长期阶段性的大气颗粒物采样,结合传统的主动采样技术和八级采样仪器,采集了大气不同粒径颗粒物样品,并

学位

合作促进多智能体强化学习

与本文相关的学术论文