基于集成学习的多智能体强化学习算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hahahuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着人工智能技术的飞速发展,其在图像识别,语音处理等方面取得了巨大的成就。然而对于现实世界中的多智能体决策场景,常用解决方案多智能体强化学习(Multi-agent reinforcement learning,MARL)还面临着训练成本高昂,稳定性差,难以解决需要高级合作的多智能体决策场景等问题,进而影响其应用效能。为此,本文针对上述问题,基于集成学习思想,从智能体进行决策所依据的状态动作对的预期奖励值(即Q值)的更新策略和多智能体之间奖励分配两个角度提出解决办法,进而降低其训练成本,提升其稳定性,并可以解决更复杂的多智能体决策场景,具体研究工作如下:(1)针对目前主流的分布式执行集中式训练的解决方案,通过分析其更新策略及观察训练得到的策略挖掘出该方案在实际应用中存在的两个问题,即Q值更新策略不合理以及智能体间奖励分配不合理,其中Q值更新策略不合理的主要原因是多智能体之间互相影响,导致Q值的预测难度加大,进而导致了Q值预测不准确;而智能体间奖励分配不合理问题的主要原因在于目前算法难以根据智能体对集体的贡献来对总奖励进行分配。(2)针对Q值更新策略不合理的问题,本课题借鉴集成学习的思想,对训练过程中Q值估计方差进行优化,提出了基于集成学习的Q值修正MARL算法,简称MC-QMIX算法。目前Q值更新策略不合理导致的Q值预测有偏,主要原因在于多智能体场景中Q值的方差增大。本课题构建集成模型来对此进行优化,并提出了自适应投票网络机制,自主学习集成模型中多个基学习器的组合策略。同时为了进一步提升性能,结合多智能体强化学习训练过程中Q值普遍大于真实值的特点,设计了后验投票(voting hindsight,VH)损失函数。实验结果表明,上述研究方法在星际争霸多智能体微环境,无人机自主决策环境中是有效的,可以显著提升样本算法利用效率和稳定性,并解决复杂任务。(3)针对智能体间奖励分配不合理的问题,本课题基于从多个时间分辨率同时进行奖励分配的研究动机,提出了基于集成学习的多级奖励分配MARL算法,简称MLCA算法。目前的解决方案中,奖励分配都是在时间分辨率恒定为1的情况下进行的,仅关注于微观层面决策。本课题基于同时从宏观和微观层面进行奖励分配的研究动机,提出了可变时间分辨率的扩张门循环单元网络,实现侧重于宏观或微观的不同。之后基于此设计了分层集成模型,多层级同时进行奖励分配机制的学习。实验结果表明,MLCA算法在星际争霸多智能体微环境中是有效的,显著提升了算法的智能程度,可用于解决之前无法解决的任务,并有效的提升了样本利用效率和算法稳定性。
其他文献
岩屑录井是钻井过程中的一个重要环节,岩屑是油气识别和储层评价的重要依据。传统岩屑识别方法主要依赖地质工作者的判别经验,容易出现识别不精确等问题。本文运用深度学习方法对录井岩屑的泥岩和砂岩成分进行识别,提高了录井岩屑识别的准确率。论文提出了两种录井岩屑泥砂识别方法,研究内容如下:将形态学分水岭算法(MWA)和卷积神经网络算法(CNN)相结合,提出了MWA-CNN方法。利用MWA-CNN方法对录井岩屑
学位
《黄帝内经》"异法方宜论"记载中医起源五方论的真实性在学术界备受质疑。文章试图以"文化区系学说"为新视角,从南方"百越"族群文化入手,通过分析"百越"族群的文身文化、尚红习俗、朱砂矿的开采及"吴越"的青铜剑铸造技术、"扬州三把刀"和"百越"的铜矿采炼,揭示出"九针"起源与"百越"文明之间的关系,提出九针疗法起源于南方"百越"文明的新证据和新观点。
期刊
食用农产品是人们饮食结构中不可或缺的组成部分,但农产品中生物毒素引发的食品安全事故屡屡发生,轻者引发食品安全疾病,重者可能夺人性命。因此,对农产品加强检测,对生物毒素进行尽早识别对保障人们的生命安全至关重要。基于此,本文总结了食用农产品中生物毒素的常见类型,并对相应的检测技术进行简要介绍,以供相关人员参考。
期刊
高频超视距雷达工作在高频波段,利用该频段的电磁波沿电离层返回散射传播机理以及可以沿海面低衰减绕射的特点,来实现超视距探测,具有探测距离远、安全系数高的优点,但同时,复杂的检测背景、电离层杂波,以及时变、类目标的海杂波,给超视距雷达的目标检测造成了困难。本文首先针对超视距雷达回波复杂的检测背景,提出了一种基于背景感知的多策略CFAR检测方法(MP-CFAR),在不同的背景下选择不同的检测策略,提升了
学位
DenseNet作为目前较为主流的卷积神经网络,不再依靠更深的网络层数和更宽的网络结构来提升网络性能,在机器视觉、工业检测、遥感图像处理等各个领域都具有巨大的应用价值。网络以具有稠密连接的Dense Block模块为核心,更有效利用每一层特征图,减少了梯度消失的现象,同时也保证了较高的精度。但DenseNet模型在具有较高精度的同时,密集的计算和存储特性严重制约了其在边缘端的部署和应用。针对上述问
学位
由于高速率多媒体业务和电子产品设备数量的剧烈增长,为保证未来移动通信网通信速率的达到预期,卫星通信系统与地面移动通信系统进行有机的融合是未来的发展趋势。卫星互联网目前是国内国外的战略研究重点之一。在地面网络的基础上结合卫星通信特性,能够弥补地面网络在服务体验与广域覆盖方面的不足。低轨卫星由于运行轨道距离地面用户近,造成的路径损耗和传输时延较小,可以传输海量低时延的多媒体业务;同时由于卫星的体量不大
学位
舰载ISAR是海防领域中重要的信息探测手段。雷达载船的三维摆动导致舰载ISAR成像机理复杂,目前尚未突破其成像机理和成像算法。本文对舰载ISAR对空目标成像算法进行研究。本文首先对舰载ISAR成像基础理论进行了研究。在建立舰载ISAR有源成像模型后,对一维距离像获取算法、包络对齐算法、相位校正算法进行了研究。在此基础上本文对舰载ISAR无源成像模型进行了推导。在建立空间模型后,以DVB-T信号为信
学位
目的:探讨重复经颅磁刺激治疗失眠症的临床效果。方法:选取2020年5月至2021年9月惠安县医院收治的失眠症患者80例作为研究对象,按照随机数字表法随机分对照组和观察组,每组40例。对照组接受阿普唑仑片治疗,观察组接受重复经颅磁刺激治疗,比较2组患者治疗前后睡眠质量、多导睡眠图监测(PSG)指标。结果:治疗前,2组患者匹兹堡睡眠质量指数量表(PSQI)各项评分比较,差异均无统计学意义(均P>0.0
期刊
随着雷达有源干扰技术的发展,电磁环境日益复杂,单站雷达的生存环境和工作性能受到严重威胁,多站雷达系统具有高维度的信息,可以通过共享以及组网协同,联合处理各雷达站的探测数据,从而提升抗干扰性能。本文主要从数据级和信号级融合两个方面,对多站雷达系统组网协同抗欺骗式和压制式干扰进行研究,主要工作分为以下四个部分:一、介绍典型雷达有源干扰,并对典型的压制式和欺骗式干扰进行建模仿真,分析了不同干扰在实际电子
学位
随着我国高分卫星星座和众多遥测平台系统的完善和进步,高分辨率遥感图像的可获得性逐渐提升,并朝着大数据和多样化的方向发展,给高分辨率遥感图像解译提出了更高的技术要求。其中,目标检测作为高分遥感图像解译任务中的重要内容,在智能交通、军事国防、抢险救灾和城市规划管理等众多应用中表现出重要的研究价值。然而,随着高分数据多样化程度和应用需求的提升,高分遥感图像目标检测模型在面临复杂地物背景、多样化目标类型、
学位