【摘 要】
:
智能体指能够通过感知环境并与环境进行交互,利用已有信息对自身策略进行迭代的完整个体系统,深度强化学习技术由于其强大的特征提取与决策能力常用于智能体建模任务上。随着人工智能的发展与智能体建模问题研究的不断深入,多个智能体组成的多智能体系统由于其强大的表达能力对真实世界的应用任务做出了更为精准的建模,其中广受学者关注的问题是基于强化学习的多智能体协同对抗问题,其旨在研究基于强化学习的多智能体群体如何在
论文部分内容阅读
智能体指能够通过感知环境并与环境进行交互,利用已有信息对自身策略进行迭代的完整个体系统,深度强化学习技术由于其强大的特征提取与决策能力常用于智能体建模任务上。随着人工智能的发展与智能体建模问题研究的不断深入,多个智能体组成的多智能体系统由于其强大的表达能力对真实世界的应用任务做出了更为精准的建模,其中广受学者关注的问题是基于强化学习的多智能体协同对抗问题,其旨在研究基于强化学习的多智能体群体如何在复杂多变的环境中通过最优的协同决策战胜其他智能体群体。基于强化学习的多智能体协同对抗算法技术广泛应用于战场对抗、游戏AI、机器人控制等实际任务上,在实际应用上具备极强的研究意义与价值。多智能体协同对抗任务由于其复杂的环境以及庞大的智能体数量,构成了庞大的策略空间,所以算法表达力不足会导致收敛困难的问题。并且由于多智能体协同对抗任务中存在不可预估的其他智能体,如何构建鲁棒性强的智能体算法也意义重大。本文对当前强化学习及多智能体系统领域的研究历史与现状进行了回顾与总结,结合现有工作进行深入研究,为解决上述问题提出了下列创新点并进行实验验证:(1)针对多智能体协同对抗环境庞大的策略空间,本文提出了基于策略分层的多智能体强化学习算法(SL-MARL)。通过两级策略分层的思想,基于强化学习技术构建了上层宏观策略算法与下层微观动作执行算法。上层由于考虑到多智能体系统的复杂性以及智能体之间的相互联系,构建了基于注意力机制与子状态空间的值分解网络。下层由于需要接受上层的策略输入,构造了基于宏观策略的值网络。实验证明该算法在复杂环境上,收敛速度及性能表现上均优于基线算法。(2)针对智能体鲁棒性不足的问题,本文提出了基于多样性种群的协同对抗算法进化方法(EBDP)。通过不同的训练目标进行预训练,构建多样性丰富的初始智能体。在此基础上通过不同参数构建混合智能体对抗池,并采样智能体令智能体互相进行对抗训练并不断生成新的智能体参数加入对抗池,通过不断迭代训练提升智能体的性能与鲁棒性。实验证明在通过EBDP训练后,智能体的性能与鲁棒性均可以得到提升。
其他文献
股权激励是企业解决委托代理问题,激发管理层创造企业价值最大化,提高公司治理能力的一种手段。2016年,我国出台了新的《上市公司股权激励管理办法》,并与2018年对其进行了修改,为我国企业股权激励的实施创造了良好的外部环境。目前,我国仍在不断完善股权激励制度,提高企业赋予核心人才的“金手铐成色”。2018年,我国光通信市场快速发展,5G无疑成为整个行业热度最高的关键词。十九大报告提出建设创新型国家,
随着视觉文化的兴起,人们在日常生活中可以接触到各式各样的插图。语文教科书插图是语文教学的重要资源,是教材的重要组成部分,教师应当合理利用好插图资源,充分发挥插图的多重作用,引导学生正确使用插图,培养良好的语文学习习惯。本文认为对语文教科书插图的研究应当扩展视野,比较不同版本,从认知观、儿童发展心理学及审美等角度分析插图的编排,分析教科书插图对选文的助读作用,以便于教师更好地教和学生更好地学。本研究
人才和创新对于每个企业的各个发展阶段来说都是非常重要的,尤其对于高新技术企业来说更是如此。对于如何才能有效的吸引和留住人才,股权激励作为一种激励机制为企业提供了更多的方案。虚拟股票激励计划通过授予激励对象“虚拟”股票的方式,将员工的个人利益与企业发展紧紧联系在一起,双方构建起“风险共担、利益共享”的机制,从而引导员工更积极的工作,推动企业业绩的提升。随着国内市场经济体制的日趋完善,股权激励也被越来
近年来,有关中国含手斧石器工业的研究取得了一系列进展,但是,在更深层次的人群社会行为研究方面的相关工作较为薄弱。本文以肯尼亚Olorgesailie遗址、以色列Gesher Benot Ya‘aqov遗址和英国Boxgrove等典型遗址为例,对国外不同地区、不同阶段阿舍利遗址中有关古人类社会行为的研究案例进行介绍和评述。通过这些述评,一方面促进我们对手斧人群社会行为的深入理解和认识,另一方面,也为
目的:采用超高效液相色谱——四极杆飞行时间质谱联用(UHPLC-QTOFMS)的脂质代谢组学技术,研究补肾活血方导法改善肾虚血瘀-卵巢储备功能下降(diminished ovarian reserve,DOR)模型大鼠卵巢功能的作用。方法:将24只SPF级成年健康雌性未孕SD大鼠,随机分为导法组(补肾活血方,A组)、DHEA组(脱氢表雄酮,B组)、空白组(C组)、模型组(D组),每组6只。模型组、
苦参洗剂治疗阴肛部湿疹与瘙痒一般资料68例患者均为门诊病人,随机分为两组。治疗组37例,男8例,女29例,年龄8~60岁,病程10天~5年;对照组31例,男6例,女25例,年龄9~60岁,病程10天~5年。治疗方法治疗组用苦参洗剂。苦参、蛇床子、地肤...
随着城市化进程的推进,几乎所有大城市都在不断扩张,原来属于郊区、农村的山体被囊括到城市范围内,而山体周边可作为泄洪区的农田等下垫面不断转化为水泥地面等不可渗透的下垫面,导致在汛期时山体径流的下泄让山下城区发生内涝的风险不断加大,危及城区内居民的生命及财产安全。传统的山洪防治理念已不能满足城市山体周边防洪排涝的需求,海绵城市理念给山洪防治工程设计提供了一个新的思路。本文系统总结了海绵城市理念下城市山
随着社会经济的高速发展,二氧化碳排放问题日益严重,能源行业的碳排放量占比约为80%,亟需探究一条能源领域绿色可持续发展之路。虚拟电厂可以整合一定区域内的各种分布式资源,通过先进的物理信息技术及优化方法对各分布式资源进行管理,利用参与电力市场的模式获取收益并提升可再生能源利用率。为提高虚拟电厂在电力市场中的获益能力,对日前市场与日内市场中虚拟电厂的运行策略优化模型开展研究,并构建了虚拟电厂运营收益分
本文是一篇双鸭山市2020年的政府工作报告汉译英翻译实践报告。双鸭山市作为一个经济发展迅速、繁荣的发展中城市,其政府工作报告中涉及到百姓民生的各个方面,包括经济、文化、民生、教育等等。《2020年双鸭山市政府工作报告》分为两部分内容,第一部分首先介绍了对2019年的工作回顾,然后紧接着是对2020年的主要任务的计划。目前此报告尚无对应的英译本,所以译者对其进行翻译实践,有助于相关人士获取资料,拓展
结构色是一种在自然界中广泛存在的光学现象,其产生原理是由于材料表面的周期性微纳结构与入射其上的光线所发生的相互作用。受到这一现象的启发,已经开发出了许多仿生结构色材料。其中,基于智能响应性高分子构建出的智能仿生结构色水凝胶材料由于其内部晶格可以在外界刺激下发生结构变化,具有独特的光学传感特性,因而在柔性传感器领域具有巨大的研究潜力。柔性传感器是由柔性材料构建的具有信号传感功能的器件,具有良好的柔韧