基于内在情感动机的多智能体强化学习研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:limingxing0623
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习作为机器学习的重要分支,因其良好的决策能力,近年来受到了广泛关注。将强化学习融合到多智能体系统形成了多智能体强化学习,其已经成为人工智能领域的研究热点。传统的多智能体强化学习算法仅考虑外在动机,即根据环境的外在奖励引导智能体进行策略学习。当外在奖励稀疏或分配不明时,会导致智能体学习缓慢甚至无法学习到有效策略,这就是多智能体强化学习普遍存在的稀疏奖励问题和全局奖励贡献分配问题。本文提出了基于内在情感动机的多智能体强化学习算法,利用情感机制的反馈帮助智能体更好地评估当前环境,通过智能体的情感机制产生内在奖励,对外在奖励进行补充和细化,以此弥补外在奖励存在的缺陷。将智能体学习过程中的有效信息映射为情感维度,用这些信息来量化智能体的情感模型,并以该情感模型作为内在动机机制辅助智能体训练。本文的主要研究内容包括:(1)针对外在奖励稀疏的问题,提出一种基于落差情绪的多智能体强化学习算法。通过当前状态的实际评估与状态转移后的预期评价之间的差异产生落差情绪,该情绪反映出智能体对当前状态下执行动作的满意程度。使用个体动作值函数对智能体的落差情绪进行建模,以该落差情绪模型作为内在动机机制,为每个智能体产生相应的内在奖励,与外在奖励一起指导智能体进行策略更新,以此缓解外在奖励稀疏的问题。在不同稀疏程度的追捕场景上的实验结果证实算法的有效性。(2)针对外在奖励贡献分配问题,提出一种基于遗憾情绪的多智能体强化学习算法。遗憾情绪归因于将当前动作替换为默认动作后智能体所获得回报的差异,反映出智能体当前所选动作对于团队收益的贡献。以该情感反馈信号作为内在奖励指导智能体学习,可以有效区分不同智能体对于团队的贡献,从而使得智能体之间能够更好地协作。在不同协作难度的追捕场景上的实验结果证实遗憾情绪对于团队奖励贡献分配的有效性。
其他文献
骨龄评估(Bone Age Assessment,BAA)作为儿童健康成长的重要组成部分,可以直接反映出儿童的生长发育情况,得到了人们的广泛关注。儿童骨骼的生长发育过程是连续的、阶段的,并具有具有一定的规律性。因此,专家可以利用手部X光片判断出儿童骨骼的生长发育情况,并对遗传性和内分泌疾病进行相关诊断。此外,骨龄评估还可以用于特殊人才的选拔和作为罪行推定的依据,在体育、法律等领域也发挥着重要的作用
学位
在人工智能广泛应用的今天,对话系统作为自然语言处理的一大分支,或已成为衡量人工智能发展程度的一大标准。在对话系统的发展过程中面临着多种困难,如在多轮对话生成工作中如何将对话的历史信息更好的在生成中体现以及在对话生成过程中如何避免主题缺失等现象。在本文的研究中,旨在解决在开放域多轮对话生成过程中缺乏上下文信息和主题缺失的问题,论文研究了一种基于层次注意力机制的上下文主题对话模型。本文的主要工作如下:
学位
在EAST托卡马克装置上,采用了多种可见光光学诊断设备监控等离子体的状态。为了保证这些光学诊断设备的准确性,需要对其光束空间方向进行校准,而在狭窄的真空室内进行人工校准是不可接受的。为了解决这个问题,本文设计一种基于视觉伺服的光束定向系统。将一个专用的相机采集模块安装在新松GCR5-910机器人的末端,用于获取光斑中心点的像素坐标,经过坐标变换和空间直线拟合算法拟合出光束的空间方向。同时使用视觉伺
学位
近年来,区块链技术越来越受关注,区块链技术也得到了多方面的发展。但是,区块链面临低吞吐量和低存储扩展性的瓶颈。分片技术可以提高区块链的并发吞吐能力,但现有的交易分配方法不能有效提高区块链的收益。多副本区块方法为一个数据块设置多个副本,并将每个副本存储在不同的节点中,相比区块的全复制方法,多副本方法有效降低了节点的存储开销。但现有的区块链多副本方法忽略了区块的查询代价。针对这些问题,本文分别研究面向
学位
托卡马克核聚变堆在运行的时候会产生大量热能、辐射能、电磁场以及中子流,多数情况下都无法进行人工维护。因此需要使用遥操作控制系统对托卡马克装置内部进行维护和操作。在遥操作上层控制系统中需要采集多种数据来对任务进行创建。采集机械臂数据可通过示教来进行,将数据存储到遥操作上层控制系统的运行管理子系统数据库中。但示教采集信息的方式效率低,在目标位置发生变化后就要重新示教,而且在聚变堆运行后装置内部情况不允
学位
多标签特征选择在高维多标签学习任务中起着至关重要的作用,并被广泛用于文本分类,Web数据挖掘等领域。现有的多标签特征选择方法主要是探索特征-标签、特征-特征和标签-标签的相关关系中的两种,少数方法能够同时处理三种类型的相关关系。如果能够同时考虑三种相关关系,可以获得带有更多辨识信息的特征子集,用于构建性能更加优越的预测模型。为了解决这个问题,本文将多标签特征选择问题转化为局部因果结构学习问题,围绕
学位
知识图谱是一种用来描述现实世界实体之间相互关系的知识库,其已在搜索、推荐和问答领域得到广泛的应用。大规模的知识图谱难以完全依靠人工构建,因此自动化的构建知识图谱成为了研究的热点问题,其中命名实体识别是构建知识图谱的基础任务之一。目前,基于Transformer的预训练语言模型在解决命名实体识别任务上得到广泛的应用,但这类方法通常需要高质量的标记数据进行微调,难以在无监督或弱监督的情况下实现较好的命
学位
贝叶斯网络是不确定性知识表达与推理的重要工具,是数据挖掘、人工智能和机器学习等领域中的重要研究方向之一。在大数据时代,由于数据的高维度,学习整个贝叶斯网络结构是一个耗时甚至不可能在有限时间内完成的任务,这使得学习一个给定变量的局部贝叶斯网络结构成为一个新的探索方向。然而目前的局部贝叶斯网络结构学习算法仍存在很多问题需要进一步探索,因此,本文开展基于约束的局部贝叶斯网络结构学习算法的相关研究,主要取
学位
近年来深度学习快速发展并攻克了计算机视觉不少难题,然而这些成果通常是建立在大量标注数据的基础上。大量标注数据意味着高昂的成本,且许多应用由于标注数据不足而难以落地。小样本学习旨在通过少量标注数据训练得到一个性能良好的模型而成为受许多人关注的领域。在图像分类任务中,现有的大多数小样本方法仅利用样本视觉信息,而忽略与之相关的文本信息。事实上,在视觉数据较少的情况下,引入其他模态信息并合理运用有助于提升
学位
中国聚变工程实验堆(CFETR)是中国自主设计和研制的衔接EAST和ITER的下一代聚变反应堆。CFETR堆芯部件运行在,高温、强磁场、中子辐照的恶劣环境下,其结构造成不同程度的损伤甚至是失效,严重时影响装置的正常运行。为了确保聚变堆的安全运行,需要定期对堆芯部件进行维护。遥操作是替代人工在恶劣环境下对内部部件进行远程维修的技术。在此背景下,中国科学院等离子体物理研究所遥操作维护团队设计了一款多功
学位