基于目标分层的多智能体强化学习协作算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:chungkhoan2002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自上世纪80年代至今,多智能体协作算法在电子游戏、资源规划、交通调度、军事等领域拥有广泛的应用前景。近几年,随着深度强化学习(Deep Reinforcement Learning,DRL)在诸多问题上取得了显著成果,基于DRL的多智能体强化学习(Multi-agent Reinforcement Learning,MARL)也成为了解决多智能体协作问题的主要方法之一。在目前的MARL方法框架中,各个智能体主要采用基于原始状态-动作对空间的协作策略探索,这使得协作策略的探索空间过大,进而导致探索效率低下,策略学习容易陷入局部最优,甚至难以收敛到稳定策略。随着问题规模增加,探索空间大小呈指数级增长,以上问题会进一步加剧。为解决多智能体协作场景下MARL探索空间过大的问题,本文将基于目标条件约束的分层(Goal-conditioned hierarchy)思想引入到MARL方法中,并提出了基于目标条件约束的分层多智能体演员-评论家(Goal-conditioned Hierarchical Multi-agent Actor Critic,GHMAC)算法。在GHMAC算法中,每个智能体原本的策略被解耦成两层子策略,上层策略负责决策当前的阶段性目标,下层策略负责与环境交互达到该目标。智能体之间的协作完全基于上层策略之间的协作,协作策略探索空间从原本的状态-动作对空间被压缩到了状态空间的子集上。此外,本文在一个开源的多智能体实验环境下,设计了一个具有多种约束的协作导航任务。基于该任务展开的一系列实验结果表明,GHMAC算法在整体学习曲线和最终任务完成率等指标上优于近几年具有代表性的多智能体演员-评论家算法。为了进一步提高策略评估的准确性,本文在GHMAC的基础上提出了基于目标条件约束的分层多智能体近端策略优化(Goal-conditioned Hierarchical Multiagent Actor Critic with Proximal Policy Optimization,GHMAC-PPO)算法,该方法适用于离散动作空间场景。首先,本文针对中心化训练去中心化执行框架下的全局状态表示方法进行分析,提出差异化全局状态表示方法。在训练过程中对当前策略作评估时,该表示方法可以消除冗余信息,考虑智能体间的差异性,从而进一步提高算法的学习效率。然后,本文将近端策略优化算法作为下层策略的更新算法,以提升智能体的探索效率,并使该方法适用于离散动作空间问题。在动作空间离散的协作导航任务下展开的实验结果显示,GHMAC-PPO的表现优于近几年的多智能体随机策略梯度算法,同时一系列的消融实验也证明了上述两个改进点的有效性。
其他文献
自2020年以来,随着播客迎来飞速发展,音频新闻也成为媒体重新获得订阅用户和消费者信任的新形式。新闻机构和经验丰富的媒体人在客户端或综合音频平台上推出新闻类播客也渐渐成为一种趋势,这共同推动了音频新闻的发展。但目前国内音频新闻发展仍处于初期探索阶段,平台的节目数量、内容质量以及服务质量都有待提升。为了解用户在新媒介环境下的使用动机和行为,促进国内音频新闻发展和新闻业转型创新,本研究分析了音频新闻用
学位
近年来,中国铁路工程建设发展迅速,铁路已成为人们交通出行、货物运输的重要交通工具。然而,随着装备水平和管理能力的提升,铁路运输网络不断扩大,行车速度和密度也大幅增加,导致铁路事故一旦发生就极易造成严重危害。此外,随着铁路设施设备日益智能化、一体化,各种复杂繁琐的操作指令得以简化。但这种简化使得指令作用范围变大,导致人为失误带来的事故后果被放大。同时,众多研究表明,人为因素在事故中出现的频率极高,具
学位
新《证券法》和《上海证券交易所科创板股票上市规则》(以下简称《科创板股票上市规则》)的发布代表着双层股权制度的法律地位正式确立,双层股权结构的产生,是投资者与公司创始人之间相互博弈的结果,其本质形式是将公司的控制权利和所有权益进行剥离,形成同股不同权的双层股权形式。放开双层股权结构的限制条件,势必会引发一些乱象,尤其是针对中小股东在双层股权结构下的权益保护问题。因此本文将从双层股权结构下中小股东与
学位
命名实体识别(Named Entity Recognition,NER)是自然语言处理的基本任务,在信息抽取中扮演着重要角色。医学命名实体识别是针对医学领域数据的信息抽取任务,对医疗信息化建设、医学问诊的开展起着重要作用,因此本文针对中文医学领域实体识别方法展开研究。命名实体识别方法经历了从早期基于规则的匹配方法、基于特征模板的统计方法、基于神经网络方法,直到近年来出现预训练加微调方法,在通用领域
学位
本文以新冠疫情云南省大理市卫生健康局(以下简称大理卫健局)征用重庆口罩一案为视角,并结合我国当下征用制度以及域外国家的制度进行分析,发现我国突发事件中的行政征用存在公共利益界定模糊、征用主体规定不一致、征用范围和对象不明确以及征用程序性规定的缺乏等问题,并以此为契机,针对性地提出完善征用制度的建议。当今突发事件频发,以上问题影响着实践中应对突发事件的效率和对被征用方的权利保障,相关法律和制度亟需厘
学位
在信息时代,推荐系统作为对抗信息过载的有效手段,已然成为生活中不可或缺的一部分。图数据结构广泛存在于各种推荐场景中,如表示用户与物品交互关系的二部图,用户之间的社交网络和物品的属性网络,这些数据从不同方面表达用户和物品的信息,并可以有效缓解图上连接稀疏问题。近年来图神经网络的发展及其在图表示学习中的优越表现,多种基于图神经网络的推荐方法应运而生。本文针对引入用户和物品辅助连接的复杂异质用户物品图,
学位
随着计算机技术的发展,虚拟现实(Virtual Reality,VR)技术结合全景视频作为一种新型的信息传播媒介越来越突出和广泛的应用在各行各业,因此受到了国内外学者的广泛关注。在信息感知方面,当前国内外学者们的研究主要集中在VR给用户带来的体验感、临场感及临场感的部分影响因素与作用方面。对于用户信息接受的效果方面的研究较少,尤其缺少对用户客观接受效果的研究;对临场感与信息接受效果间关系的研究也较
学位
北方土石山区铁路施工的土壤流失预测往往是根据工程背景相近的土壤侵蚀模数类比值,为准确、快速的测算铁路施工中产生的水土流失量,并提供区域土壤侵蚀模数参考值,本文以北方土石山区铁路施工中的水土流失敏感单元:施工便道、填方路堤、挖方路堑、弃土(渣)场为研究对象,以理论分析结合数据分析为技术手段,运用SPSS、MATLAB软件定量分析土壤流失量与降雨、土石质、地形等影响因子的关系,构建铁路施工扰动地貌单元
学位
改革开放以来,我国经济高速增长,人口红利的推动是不可忽视的因素之一。但近几年的生育趋势持续低迷,加之人口老龄化进程加速,使得我国的人口红利逐渐消减。随着中国特色社会主义进入新时代,我国的经济已由高速增长阶段转向高质量发展阶段,此时经济-人口双系统的高质量发展是更加值得关注的话题。因此,人口数量红利向人口质量红利的演进成为了与当前高质量发展阶段更加适配的人口导向。当下人力资本红利已逐渐取代人口数量红
学位
随着雷达探测技术的不断发展,各种电磁设备尤其是军用设备对电磁隐身技术的需求越来越高。在日益复杂的战场电磁环境中,在宽频带内具有低雷达散射截面(Radar Cross Section,RCS)特性的飞行器、舰船等设备的生存能力和战斗能力将得到显著提高。近年来,超表面以其剖面低、易共形、设计灵活等特点,成为隐身技术领域的研究热点,将RCS减缩超表面加载于飞行器、舰船等设备的外侧,能够有效提高其隐身性能
学位