【摘 要】
:
随着人工智能和自动化技术的飞速发展,机器人系统正呈现规模化、网络化和集群化的发展趋势。相比单个机器人,多个智能体可以通过合作的方式有效地提升任务执行的效率,显著增强系统在对抗场景中的生存能力和在复杂环境中的适应能力。本文围绕在复杂干扰场景中多智能体协同策略的生成与高效训练问题展开研究,基于强化学习,首先,提出了一种基于最优化理论的多域协同建模方法,能够有效地对多智能体系统进行统一建模;其次,提出了
论文部分内容阅读
随着人工智能和自动化技术的飞速发展,机器人系统正呈现规模化、网络化和集群化的发展趋势。相比单个机器人,多个智能体可以通过合作的方式有效地提升任务执行的效率,显著增强系统在对抗场景中的生存能力和在复杂环境中的适应能力。本文围绕在复杂干扰场景中多智能体协同策略的生成与高效训练问题展开研究,基于强化学习,首先,提出了一种基于最优化理论的多域协同建模方法,能够有效地对多智能体系统进行统一建模;其次,提出了一种基于多智能体强化学习的端到端合作策略学习算法,有效提高了系统对动态复杂场景的适应性,加快了异构场景学习的收敛速度;第三,设计了两种基于迁移学习的模型训练优化方法,有效地提升了策略模型的学习效率,减少了运算时间开销;最后,基于上述研究,设计实现了一个原型系统,设计了实验场景,构建了实验环境,对本文工作的有效性进行了实验验证。本文主要的研究内容和创新点为:(a)提出了一种基于最优化理论的多域协同建模方法多智能体系统通常运行在复杂的具有电磁干扰的地理环境当中,为了提升智能体在复杂环境中的策略生成效率,本文提出了一种同构多智能体围捕场景的建模方法:首先,将智能体的物理模型进行简化,构建感知、通信模型;然后,按照约束条件的强弱,将任务分解为四个难度递进的场景,通过设计奖励函数,将问题建模为马尔科夫过程;最后,通过判断智能体之间的关系,提出了一种DFS动态分组算法DFS-DG,通过对智能体的观测信息进行动态分组处理,将其作为强化学习算法的输入数据,对智能体进行训练,训练出有效的围捕策略,提升策略的生成效率。(b)提出一种基于多智能体强化学习的端到端合作策略学习算法为了提高系统对动态复杂场景的适应性,同时加快异构场景学习的收敛速度。本文提出了一种异构多智能体端到端合作模型的自适应奖励算法E2E-IRL:首先,通过图神经网络学习异构智能体之间的关系,采用注意力机制进行权重计算;其次,设计了一种自适应奖励函数网络,使其可以根据环境状态自动地生成对应的奖励值;最后,结合集中计算分布执行架构,提出了一种双层优化的算法,并在标准环境(星际2游戏测试环境)中进行了实验验证与可视化分析。(c)设计了两种基于迁移学习的模型训练优化方法为了进一步提高强化学习策略模型的学习效率,减少运算时间开销,本文提出了两种基于迁移学习的场景课程迁移的方法:首先,进行课程设计,将场景按照由易到难的顺序进行课程排列,并完成初始任务训练;其次,将前一任务的训练模型,作为下一课程任务的初始条件继续训练,直至完成最终场景的学习。通过两种课程设计的实验以及数学推导,验证了该方法的高效性与合理性。
其他文献
干水(DryWater)是微水滴被纳米级二氧化硅颗粒包覆层封装形成的、整体呈干粉状的富水材料,其内部水可在高温或外力作用下释放出来。且由于干水粉体具有类似固体颗粒物的流动性和分散性,在阻燃灭火领域具有巨大的潜在应用价值。本文以干水灭火剂为研究对象,通过研究不同固液比、搅拌速度和搅拌时间三种参数对使用高速搅拌机制备干水灭火剂过程的影响,优化了干水灭火剂制备工艺参数,制备了包覆纯水的基础干水灭火剂。同
背景:激素类污染物如17β-雌二醇(17β-Estradiol,E2)、双酚A(Bisphenol A,BPA)、孕酮(Progesterone,P4)等可对人类繁殖、发育及生长造成威胁,因此,急需建立快速、灵敏、准确的激素类污染物检测技术。传统激素类污染物的检测以大型仪器为主如液相、液质联用等,但由于其需要专业人员操作、前处理复杂、精细化程度高、成本高等原因,其无法满足现场快速检测需求。目前,激
自全国高校思想政治工作会议召开以来,课程思政便成了当下高等教育专业课程改革的重点。文章以C4D三维视觉设计课程为例,从数字媒体艺术设计类课程的思政建设角度进行了探索,并在发掘思政点与融合思政点的方法上进行了论述。
HFC-134a化学性质稳定、易脱附、低浓度易检测且环境友好,常被用于集体防护核心装备“过滤吸收器”机械漏毒非破坏性检测的示踪气体。该物质在化学防护材料上的吸附行为,特别是与水蒸气(H2O)在化学防护炭材料上的竞争吸附过程,是建立过滤吸收器机械漏毒非破坏性检测方法的理论基础。本文在化学防护炭材料理化特性系统表征的基础上,通过实验研究、模型分析以及过程模拟计算,从吸附平衡和吸附动力学两个方面,较为深
指标在衡量与测度综合发展和某一领域发展起到重要指向作用。一直以来,各行各业为了科学管理、有效监测自身情况,在社会经济、教育、科技、农业、军队建设发展等领域产生多种指标体系。随着大数据技术的发展,用数据管理、数据决策的呼声越来越高,各行各业掀起了指标体系研究热潮,但从开始构建指标、选择指标到最终形成指标体系,需要耗费专家大量时间才能完成。目前,很多部门经过长期研究积累了大量面向特定任务的指标,各领域
脑卒中,又称中风,是由血管性病因引起的中枢神经系统损害所导致的神经功能缺损,包括颅内出血、脑梗死和蛛网膜下腔出血,发病率高、死亡率高、致残率高、复发率高,并会造成较重的经济负担。《全球疾病负担报告2016》显示脑卒中是全球第二位死因,而在2008年脑卒中就已经是中国居民死亡的首位因素。近年来因为人口老龄化以及相关危险因素暴露等,中国脑卒中患病率持续上升,脑卒中已成为我国重大公共卫生问题。随着医疗信
防毒衣的高隔绝特性,导致人员穿着防毒衣作业时出现体温升高、心率加快等热应激反应,严重时还会发生脱水、昏厥,甚至导致热伤亡等后果。为保证人员作业安全性和舒适性,需要调节防毒衣内部热湿环境,以缓解人员穿着防毒衣条件下的热应激反应。无源微气候调节系统能够吸收人体产热,以无需电源、性能可靠、结构简单的优势,是用于穿着防毒衣高隔绝环境的较好选择。目前针对防毒衣高湿阻、高隔绝的特殊使用环境下无源微气候调节系统
目的:支架蛋白RACK1是重要的信号转导分子,课题组前期研究发现RACK1通过调控自噬维持外周T细胞数量,然而RACK1在B细胞中的作用仍不清楚。本研究通过建立RACK1在B细胞条件性敲除小鼠模型,探讨RACK1在B细胞发育、分化和功能中的调控作用,并对分子机制进行了初步探讨。方法:1.建立RACK1在B细胞中条件性敲除小鼠模型(经典敲除模型),基因型为Rack1F/F;CD19-Cre,简写为K
【目的】研究电离辐射对心肌细胞死亡方式的影响及对线粒体的损伤作用,探讨坏死性凋亡是否参与了电离辐射引起的心肌细胞死亡及其与线粒体功能紊乱、氧化应激之间的相关性。【方法】用60Coγ射线单次照射H9C2大鼠心肌细胞,根据照射剂量进行分组,分为对照组(control组)和不同照射剂量组(5、10、20Gy组)。使用显微镜观察照射后各组心肌细胞形态变化;使用CCK8试剂盒检测照射后各组心肌细胞活性;利用
目的:高原红细胞增多症(High Altitude Polycythemia,HAPC)是一种高海拔地区常见的慢性疾患,长久以来一直影响着高原地区人群的健康。学界也对其进行了大量的研究,但是至今仍未有明确论述来阐明其发病机制。随着近年来对肠道微生物研究的不断深入,研究者发现肠道菌群与人体的健康和疾病息息相关。本研究旨在探究高原红细胞增多症病程中肠道微生物所发挥的作用,为阐明该疾病的发病机制提供一定