非全知环境下的多智能体深度强化学习研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:alfred0612
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能体通过与环境交互,利用强化学习优化策略以实现回报最大化或完成特定任务。将强化学习与深度学习结合形成深度强化学习,它不仅具备强大的特征提取能力和表达能力以感知智能体属性信息和环境信息,而且具备强大的探索能力以适应环境的动态变化,在多个复杂问题中展现出良好的性能。尤其在多智能体协同决策任务中,多智能体深度强化学习已然成为研究热点,在无人机编队协同、交通枢纽控制和智能物流等多种领域被广泛应用。因此,多智能体深度强化学习具有重要的理论研究和实际应用价值。实际应用系统中,单个智能体通常仅具备局部观测能力,即环境非全知多智能体系统。在完成协作要求高的任务时,智能体间密切配合才能实现团队利益的最大化,但在环境非全知的条件下,每个智能体对于复杂环境的认知有限,需要通信协同。因此,如何通过智能体间有效通信增强智能体感知环境的能力,切实提升决策质量,是多智能体系统研究的一个重要内容。基于此,本文对非全知环境下多智能体协同决策过程中智能体的通信策略学习进行了研究,针对通信过程中消息的有效识别和处理以及通信资源优化两方面提出了两种多智能体强化学习方法,具体研究内容包括:(1)针对通信过程中消息冗余和存在噪音的问题,提出一种基于注意力消息共享的多智能体强化学习方法AMSAC。具体而言,首先,基于多智能体演员-评论家架构,建立智能体消息共享空间,智能体对共享空间进行消息读取和写入操作,为全局环境信息感知提供支撑;其次,在消息共享网络中建立注意力机制,识别重要信息并进行处理,提升多智能体系统的消息处理性能;最后,在集中式评论家网络中,充分利用全局状态和动作信息,采用时间差分优势策略梯度对智能体执行动作的价值进行合理评估。在多智能体协同对抗环境中进行实验,结果显示AMSAC在四个不同场景下具备优于基线算法的性能。(2)鉴于多智能体值函数分解方法在解决非平稳性和扩展性问题的良好性能,针对其在分散式执行过程中存在的不协调问题,提出了一种基于信息论优化的多智能体强化学习方法BESQ。BESQ以信息论优化技术为基础,基于多智能体值函数分解架构设计了两种通信消息正则化优化器,进而在智能体间构建了通信资源优化机制,解决值函数分解方法在分散执行过程中缺乏协调的问题。具体而言,首先,为增强智能体通信消息的表达能力,建立最大化智能体消息与动作选择之间互信息熵的正则化优化器,减少其他智能体动作值函数的不确定性;同时,为优化智能体通信消息的简洁性,建立最小化智能体消息熵的正则化优化器,使智能体通信的消息包含影响决策的重要信息;最后,基于多智能体值函数分解方法Qatten实现上述的通信资源优化机制,将值函数分解和通信学习方法有机结合。在多智能体协同对抗环境中进行实验,结果表明BESQ在四个不同场景下具备优于基线算法的性能。
其他文献
目前,客户满意度概念被很多企业采用并应用于营销管理中来。什么是客户满意度?客户满意度受什么因素影响?客户满意度如何进行测量?如何提高客户对产品的满意度?特别是在家庭宽带市场由新增市场进入存量市场,以及国家开放携号转网的政策之后,运营商之间的竞争达到了白热化的程度。如何提高客户对产品的满意度成为了企业能否赢得客户抢占市场的关键,成为了决定企业生存和发展的重大问题。本论文围绕如何提高中国移动Y分公司家
学位
文章以某稀有金属再生企业废水处理工程为实例,介绍了废水处理工艺、构筑物参数及运行成本。针对废水成分复杂、重金属浓度高、水质水量波动大的特点,设计采用二段铁盐-石灰法+生物接触氧化工艺工艺进行处理。运行结果显示,工艺出水水质能够稳定达到《污水综合排放标准》(GB 8978—1996)中的一级标准,处理成本为3.90元/m~3,具有良好的环境和经济效益。
期刊
目前,我国支付清算系统的数据工作仍面临着一个重要的问题,即如何在开展业务中实现数据的价值,并且充分利用数据的价值,提高金融服务和监管的能力。基于此,文章对支付清算数据的现状和应用进行了阐述与分析。
期刊
当前,随着互联网技术水平高速发展,我国的报纸、广播、电视等传统媒体受到巨大冲击,各地区官方媒体积极推动融媒体改革,成立融媒体中心。2019年,平潭综合实验区成立融媒体中心,目前处于转型升级的关键时期。由于员工是融媒体建设的最终执行者,调动员工工作的积极性,推动融合目标的实现,打破原有体系,建立完善的、符合传媒特性和员工期望的激励机制势在必行。本文是以“问题导向”为出发点,立足于平潭综合实验区融媒体
学位
针对当前铁路运输客运清算以月度为周期,导致清算频率逐渐难以适应运输生产需求,清算基础信息收集滞后,造成清算调整过多等问题,文章设计了铁路客运预清算系统。介绍了系统的数据组成、数据流设计、功能架构设计和各项具体功能,以期丰富运输清算产品,促进清算业务的技术和服务升级。
期刊
伴随经济高速发展和人民收入水平的不断提升,消费者对企业产品和服务的要求也在不断提高。同时,随着房地产行业宏观调控加剧,住宅市场走向成熟,客户满意度成为影响房地产企业良好发展的关键因素。房地产企业需要持续关注客户对产品和服务满意程度,促进前端产品研发和品牌美誉度上升,从而有效反哺销售。本文以T房地产集团西部公司的准业主、磨合期、稳定期、老业主全周期客户作为研究对象,从客户全生命周期满意度着眼,分析客
学位
《普通高中英语课程标准》(2020修订版)指出高中英语课程是全面贯彻党的教育方针、落实立德树人根本任务、发展英语学科核心素养、培养社会主义建设者和接班人的基础文化课程。学习和使用英语对汲取人类优秀文明成果、借鉴外国先进科学技术、传播中华文化、增进中国与其他国家的相互理解与交流具有重要的意义和作用。普通高中英语课程作为一门学习及运用英语语言的课程,旨在为学生继续学习英语和终身发展打下良好基础,强调对
学位
中小企业的发展,对我国的经济发展起着十分重要的作用。其中,制造型中小企业是我国中小企业的重要组成部分。制造业中小企业中,生产人员人数多,是企业生产过程中的重要力量,提高生产人员工作满意度和生产积极性,从而提高产品质量,提升企业竞争力,对企业的发展尤为关键。H公司是国内一家中小型制造业企业,目前企业内部出现了生产人员工作积极性不高等问题,因此如何提高员工积极性,尤其是具有高技能水平员工积极性,是企业
学位
随着经济增长与社会发展,我国养老医疗等社会保障体制不断改革深化,人们的保险意识逐渐增强,我国的寿险业务正处于蓬勃发展的黄金时代。中国自从加入世界贸易组织以来,与国际接轨,寿险市场逐渐成熟,国际化程度越来越高,寿险公司之间的竞争也从价格竞争、产品竞争发展到客户服务竞争。最近三年以来,客户满意度的下滑是影响A寿险公司内涵价值增长的重要障碍,如何提高客户满意度是A寿险公司面临的重要课题。本文尝试以寿险客
学位
拥有一定体量客户的企业在对应客户服务时往往面临着资源如何分配的问题。企业的资源是有限的,很难同时满足所有客户的需求。为使企业盈利达到最大化的同时保证客户较高满意度。企业需要对客户进行分类和识别,根据客户的特征与价值贡献,将客户进行细分不同群体后采取适当的服务策略。客户关系的改善是本文研究的重点。本文以制造业中零部件生产和销售一体的M公司为研究对象,分析其在客户分类和服务应对中存在的不合理的分类规则
学位