多智能体中的深度强化学习迁移方法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:zhiyuanfengxiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习技术用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。深度强化学习是强化学习的进一步发展,用以应对更加复杂的环境。多智能体环境是一种常见的复杂环境,在这种环境中深度强化学习的训练成本通常十分高昂,这极大的阻碍了深度强化学习的技术发展和应用推广。迁移技术是一种可以有效降低多智能体深度强化学习训练成本的技术,它是指将某个领域或任务上学习到的知识或模式应用到其他领域或问题中。另外,迁移技术还是多智能体深度强化学习模型从实验环境顺利应用到实际环境的关键技术之一。因此,研究多智能体深度强化学习的迁移是十分有必要的。多智能体深度强化学习的迁移分为三个层级:团队层级、个体层级和局部子策略层级。迁移团队策略常用于实现团队规模的变化,但现有的迁移办法难以应对智能体规模动态变化的环境;迁移个体策略常用于实现算法训练的加速和性能的提升,但传统迁移方法对训练速度提升有限且难以保证迁移知识的有效程度;迁移局部子策略可以降低训练成本,但传统神经网络结构下,算法难以从总策略中分解出子策略进行迁移。本文对上述三个问题进行了深入研究,主要工作和创新点如下:(1)针对现有迁移办法难以应对智能体规模动态变化的环境问题,本文提出了序列多智能体强化学习(SMARL)算法。算法通过内部智能体间知识的迁移和降低智能体规模与算法的相关性,提升了算法对智能体规模变化的适应能力。实验表明,本算法在迁移性和训练效率上均优于基线算法,且在智能体数量变化环境下,迁移后性能上至少是基线算法的3倍。(2)针对传统迁移方法对训练速度提升有限且难以保证迁移知识的有效程度问题,本文提出了融合监督学习的深度强化学习(SRL)算法,通过“监督预训练—>知识迁移—>强化学习再训练”的方式,达到加快训练的目的。实验表明,单智能体情况下,本算法训练的耗时相比其他方法至少缩短25%,多智能体情况下,本算法可以为智能体设置良好的“开端”,从而获得更多奖励。(3)针对传统神经网络结构下,算法难以从总策略中分解出子策略进行迁移问题,本文将“高内聚,低耦合”的思想引入深度强化学习,提出了模块化的深度强化学习模型。本模型中通过分割整体网络,分解总体策略,实现智能体间局部模块和特定策略的迁移复用。实验表明,本模型在性能,迁移性以及模型的泛化性上远优于使用传统结构的深度强化学习算法。
其他文献
随着时代的发展人们对服务质量的要求不断提升,银行是人们生活中必不可少的一部分,很多人发现在银行办理业务所需要等待的时间非常长。如果银行不能够解决该问题,将会直接影响其市场竞争情况。目前,大部分银行已经引进了先进的排队叫号系统,基本上实现了排队的智能化处理。但是,由于现有排队叫号系统自身设计理念存在的问题,导致银行窗口的综合利用率较低,存在部分窗口闲置,部分窗口等待时间较长的问题。为此,本文研究一种
随着信息技术的快速发展,以通信网络为基础的现代通信技术已深入到人们生产生活中,保证信息的高速、安全传输已成为各国通信领域的重要研究目标。混沌光场因其类噪声的随机性及对初值条件敏感等非线性动力学特性,已经被广泛应用在保密通信、物理随机数产生等研究领域中。外腔反馈的半导体激光器作为典型的混沌动力学系统,可产生高维的混沌信号,为研究非线性效应和复杂的光子动力学提供了良好的平台。然而,外腔反馈会引入周期性
2021年12月21日,省委书记、省新冠肺炎疫情防控工作领导小组第一组长袁家军深入绍兴市上虞区防疫集中隔离点、封控村社等场所,进一步检查调研疫情防控工作,看望慰问一线干部群众,并在上虞区疫情防控指挥部主持召开座谈会,听取有关情况汇报,研究部署下一步重点工作。
期刊
图像分割简单来说就是将一副图像分割成互斥的有意义的区域,它是计算机视觉的基本问题.在过去的几十年里,已经有大量的关于图像分割的文献发表,广泛应用在医学图像处理、目标跟踪、识别、图像重建等领域.在以往的图像分割技术中,许多成功的方法都得益于将图像元素映射到图上.然后利用图论的相关理论知识在离散空间中求解分割问题.本文主要研究基于图论的图像分割的一些特性及其应用,主要工作如下:(1)针对传统的分水岭算
山西省汾阳市田村后土圣母庙壁画是明代道教壁画的代表作,展现了神话中的后土圣母传说和祭祀卤簿的内容,反映了山西后土信仰。本文对汾阳田村圣母庙壁画的艺术和内容进行了梳理。圣母庙壁画采用工笔重彩、沥粉贴金的绘画技艺,绘制了侍女、太监、文武官员、殿堂、亭廊、山石花木、车马器具等众多的人物、事物形象,其中的人物造型具有动态多样性的特点,服饰器具则反映出贵族奢侈生活的样貌,具有极高的艺术价值。通过文献研究法、
心力衰竭,简称心衰,是各种心脏疾病发展的终末阶段。心衰患者预后死亡率是高度可变的,死亡率从5%到75%不等。因此评估心衰患者预后死亡率,根据预测死亡率情况来使医生制定更加科学的治疗方案,是防止病情进一步恶化,从而降低医疗开支的一种重要手段。目前,针对心衰预后死亡率研究模型主要分为两种,一种是根据医学知识和统计学出发的医学领域模型,另一种是依靠计算机算法的机器学习和深度学习模型。但这些模型都存在着患
小样本图像分类是计算机视觉领域的一项重要任务,现实生活多数应用场景都存在样本数据量较少的问题,使该领域受到国内外学者广泛关注。本文基于胶囊网络模型,针对不带噪声相对复杂的小样本数据集提出融合胶囊网络与Darknet的分类模型,针对带噪声的复杂小样本数据集的分类提出融合胶囊网络与深度残差收缩网络的模型,并通过实验验证了所提融合模型的有效性。本文具体工作如下:(1)针对相对复杂的小样本数据集的分类问题
Deepfake是一种基于深度学习的人脸图像操纵技术。如今Deepfake视频人们已经很难通过肉眼区别出真伪。虽然该项技术带来了很多积极的应用,但是这些篡改的视频会给我们的社会带来巨大的潜在威胁,例如被用来制作假新闻和色情视频。因此,现在我们亟需找到一种可以有效识别深度伪造视频的方法。目前常见的Deepfake视频检测方法是基于图像每一帧的空间特征信息,它们并没有有效地利用视频的时空特征信息。De
增加原煤的洗选率是提高煤质的重要途经,也符合当今煤炭资源清洁高效利用的趋势。在原煤入洗前,需对原煤中粒径较大的矸石进行分选处理,以达到后续破碎和洗选的要求。传统的煤矸分选主要由人工完成,存在着劳动强度大,分选效率低的问题。为了实现煤矸分选的自动化,本文研究设计了一套基于机器视觉的煤矸智能分选系统,该系统主要由负责采集图像及进行动态测试的煤矸分选平台、负责图像识别与定位的上位机煤矸分选软件以及控制执