基于深度强化学习的多智能体算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:fogflower
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的不断发展,并且深度学习也成功应用于单智能体强化学习中,多智能体协同强化学习也在这个浪潮中得到了非常广泛的发展和应用。多智能体协同算法的主要目的是通过智能体群环境的不断交互,寻找到一个获取总体目标最大价值的最佳策略。强化学习在训练过程中通过不断和环境交互的方式进行收集经验,并根据这些经验进行学习。这些经验数据一般需要与环境进行大量的交互,这些对智能体的训练都带来了严峻的挑战。加速这些经验数据的收集,智能体便可以在相对更短的时间里获得更多的交互数据,从而加快训练。在单智能体算法里通过并行训练的办法在一定程度上加快了交互数据的收集,但是如何将其利用到多智能体系统里来又是一个新的问题。其次,不同的交互数据在训练过程中对智能体的价值并非等价,在目前的经验数据抽取的算法中,主要采用随机采样的方法对智能体参数进行更新,但是,在此状态下所有交互数据都有了相同的权重,忽略了交互数据对智能体的学习价值的差异,导致学习效率低。因此根据交互数据的不同重要程度给予它们不同的权重非常有意义。最后,多智能体环境会受到所有智能体动作的影响,所以多智能体系统环境会更加复杂和不稳定。并且多智能体系统的复杂性也会随着智能体数量的增加而增加,可能会存在维度爆炸或者无法收敛的情况,因此如何让智能体选择性的关注信息,更好利用好有效信息也是个非常重要的问题。本文的主要研究内容分为以下两部分:(1)针对多智能体协同环境中交互数据收集慢,均匀采样学习效率低的问题,提出了一种多智能体协同工作中的并行优先级回放方法。在数据收集阶段,通过决策者并行的方式采用多个线程进行并行计算加快了交互数据的采集。在数据采样阶段,提出了一种多智能体优先级采样的方法,给予不同数据不同的权重。在训练时,该方法利用TD-error的方法来计算并标识不同交互经验的重要性,并以在每次取样的时候用优先级最高的方法对网络进行更新。实验证明,并行优先级回放的方法可以有效地加快模型的训练并且改善模型的训练效果。在合作和对抗两种实验中进行了实验,最终取得了较好的性能。(2)针对多智能体协同环境中智能体的数目变多,动作维度大导致信息维度爆炸的问题提出了一种基于注意力的多智能体协作方法。利用注意力机制对智能体网络进行了优化与改造使智能体可以更好地利用有效的信息,并对不同智能体的信息选择性关注。在一定程度上缓解了信息维度大导致的难收敛问题。在最终的实验结果中显示,利用注意力机制的方法可以更好的提升实验效果。
其他文献
近年来,开放域问答系统在学界和业界都获得了越来越多的关注。开放域问答作为自然语言处理中极重要的任务,其目的是为用户的问题提供简洁的答案,被认为是新一代搜索引擎的核心技术。基于文本的开放域问答是一种重要的实现形式,主要可以分为篇章检索、答案抽取和答案选择三个步骤。本文围绕基于文本的开放域问答中的篇章检索和答案选择进行研究,以提高开放域问答系统的整体性能。本文的内容是对篇章检索和答案选择进行优化。首先
学位
报纸
药物分子和靶标蛋白亲和性的成功鉴定在药物发现的虚拟筛选阶段和现有药物的再利用环节中起着至关重要的作用。本文主要从亲和力值预测模型的输入、编码和解码三个角度研究了药物-靶标作用表示与预测方法,以提升预测准确率。本文基于生物领域问题的特点,参考了自然语言处理、多模态融合和推荐算法领域的先进思想,改进了上述三个阶段。主要研究内容包括:(1)基于多粒度表示的药物-靶标亲和力值预测方法研究,对药物、蛋白质的
学位
目的 探究白细胞介素34(IL-34)对大鼠根尖牙乳头干细胞(SCAP)成牙、成骨分化的影响。方法 采用酶消化法分离培养大鼠SCAP,实时荧光定量PCR检测IL-34在大鼠SCAP中的表达。采用噻唑蓝(MTT)法分析不同浓度IL-34对大鼠SCAP增殖活性的影响。茜素红染色观察矿化情况,划痕实验检测增殖能力,实时荧光定量PCR检测成骨相关基因碱性磷酸酶(ALP)、牙本质涎磷蛋白(DSPP)、 Ru
期刊
本文对出院准备度的概念、评估工具进行了研究,对肺癌患者出院准度的现状及影响因素等作一综述,为改善和发展肺癌患者出院准备度的临床护理干预提供参考。
期刊
<正>思想政治理论课(以下简称思政课)作为落实立德树人这一根本任务的关键课程,是用党的创新理论培根铸魂、启智润心的主渠道和主阵地,在培养社会主义建设者和接班人的过程中发挥着不可替代的重要作用。当前思政课已进入到了善用“大思政课”整体实践的育人新格局,要深入学习习近平总书记关于教育的重要论述,结合正在开展的主题教育相关内容,坚持社会主义办学方向,在涵养大情怀、建设大阵地、构建大师资上下功夫,用好用活
期刊
近年来,随着预训练模型的广泛应用,人机对话技术的研究取得令人振奋的进展。但是,目前的人机对话系统大多聚焦于人机双方参与的应用场景,对于更具有通用性的人机多方对话的研究及应用则鲜有涉及。在多方对话中,多个参与者在交流中所扮演的讲者及听众的角色不断并行交替,极大增加的对话关系结构的复杂程度。由于角色和结构的多样性差异,传统的人机双方对话模型缺少相应的建模策略,因此往往很难直接迁移到多方对话场景。本课题
学位
图像去噪是一项基础且重要的任务,常用于从美学角度提升图像的视觉质量,同时也有助于改善下游任务的效果。在当前阶段,得益于深度神经网络的强大拟合能力,通常会训练单一模型来处理不同噪声水平甚至不同类型的真实图像噪声。然而,由于深度网络主要通过拟合训练数据来实现对各种图像噪声的去除,当模型被应用于训练集中未涉及的噪声水平或噪声类型时,去噪性能通常会显著下降。同时,现有的方法对于图像中的高频纹理信息没有过多
学位
标题党新闻是人们生活中常见的一种低质资讯,标题党新闻过多地充斥会影响人们阅读新闻的主动性,压缩优质内容生产者的生存空间,也对新闻本身强调的真实性和可靠性有所影响,如果不对标题党新闻加以限制,未来将会成为谣言和虚假新闻的温床。本文针对标题党新闻泛滥的现象,就标题党新闻检测方法进行了探索。意在研究出一种面向真实新闻能够有效识别出新闻是否是标题党新闻的算法。通过比较国内外对于标题党新闻整治所采用的方法,
学位
心血管疾病已成为全球人口死亡主要原因之一,严重影响着人类健康和社会发展。有效的预防、检测及治疗可显著地降低心血管疾病的死亡率。而血管内光学相干断层扫描技术(Intravascular Optical Coherence Tomography,IVOCT)作为现今前沿的血管成像技术之一,由于相比于其他成像技术,对血管组织的成像具有分辨率高等特点,从而在临床中得到广泛应用。然而,在成像过程中牵引探头的
学位