【摘 要】
:
本论文依据真实物理环境中数据稀缺且难以获得的问题,设计通过仿真训练环境推演获得对抗数据,利用仿真训练数据对算法模型进行训练迭代,最终完成从数据生成到模型迭代的闭环流程,使得算法模型能够通过仿真训练系统学习出智能行为决策的能力。具体的,本论文选用深度强化学习技术作为智能决策模型,为产生强化学习模型的训练样本,我们搭建一套服务于强化学习技术的仿真训练平台。训练平台中包括态势推演、效用评判、观测信息提取
论文部分内容阅读
本论文依据真实物理环境中数据稀缺且难以获得的问题,设计通过仿真训练环境推演获得对抗数据,利用仿真训练数据对算法模型进行训练迭代,最终完成从数据生成到模型迭代的闭环流程,使得算法模型能够通过仿真训练系统学习出智能行为决策的能力。具体的,本论文选用深度强化学习技术作为智能决策模型,为产生强化学习模型的训练样本,我们搭建一套服务于强化学习技术的仿真训练平台。训练平台中包括态势推演、效用评判、观测信息提取等关键功能。训练平台设计理念与强化学习技术中的智能体概念相符,对抗单元将依照深度强化学习中智能体概念进行智能体建模,包括行为空间、观测空间、回报函数等基本决策要素。在算法模型和仿真训练系统的交互设计上,我们使用包括进程通信与g RPC技术在内的多种数据交互方式,能够使得算法灵活选择不同编程语言与训练框架。最后,我们基于该仿真训练平台构建典型的进攻/防守对抗场景,使用深度强化学习算法进行进攻方的行为决策,并基于状态机技术建立防守方内置AI策略,随着对抗推演轮数增加,深度强化学习算法最终成功学习出击败内置AI的决策能力。本论文主要研究内容主要分为下面四个部分:(1)对抗单元的智能体建模技术的研究,包括:对抗单元观测空间、行为空间的建模,对抗单元行为效用的评判,以及当存在多种不同类型的智能体时如何进行数据整合与数据更新。(2)仿真训练系统中态势推演、观测获取等推演功能的实现。要想获取模拟对抗数据,就需要构建一个能够完成推演对抗的仿真世界,智能体在仿真世界中的对抗须符合一定的物理规则与物理效应,智能体只有在遵循基本规则下完成推演训练系统才能够产生有效且合理的训练数据。(3)算法和仿真部分之间的通信方式与通信协议研究。仿真世界和算法模型作为相互独立的两个部分,需构建合理的通信方式和通信协议。同时,针对跨语言的工程需求,该论文需对这一现实问题做出考虑并提出解决方法。(4)构建典型突防对抗场景,基于仿真训练系统搭建具体实施例。通过制定红蓝双方智能决策模型与对抗规则,随即完成对抗实施例的设计与实现。
其他文献
城镇环境是历史积淀的成果,在历史街区保护与复兴中,城镇历史遗产的保护利用问题是备受关注的热点。在历史街区城市设计中,注重个性化和人性化的塑造,街区整体面貌的一致性、功能的融合性、空间形态的延续性和历史资源的多样性,对环境品质的提升具有重要的推动作用。文章结合泗阳县天后宫历史片区的城市设计,在凸显妈祖文化和运河文化、传承与创新街巷肌理、塑造山水形态框架方面进行探索,以期提升小城镇历史片区环境品质,在
目的:探讨LED红蓝光照射联合综合护理干预对面部痤疮患者遵医行为及生活质量的影响。方法:选取我院2019年1月至2020年6月诊治的200例面部痤疮患者,以随机的方式将200例患者平均分为LED红蓝光照射组和LED红蓝光联合综合护理组,每组各100例患者。LED红蓝光照射组对面部痤疮患者给予LED红蓝光照射治疗,LED红蓝光联合综合护理组对面部痤疮患者实施LED红蓝光照射联合综合护理干预。观察并统
目的探究加减右归丸汤剂联合优甲乐对甲减患者症状及甲状腺功能的影响。方法采集2019年2月到2020年5月我院内分泌科收治的85例甲减患者,按照随机数字法分为观察组(43例)和对照组(42例),观察组服用右归丸汤联合优甲乐治疗,对照组仅服用优甲乐,治疗12周后,观察治疗前后两组患者临床症状、甲状腺功能(TSH、FT4、FT3、T3、T4)、抗体(TGAb、TPOAb)、血脂(TC、TG、HDL-C、
目的:探讨消化危重症亚专科护理模式在重症急性胰腺炎病人护理中的应用效果。方法:将2017年1月—2018年3月作为亚专科护理模式实施前阶段,实施常规护理,此期收治的38例重症急性胰腺炎病人设为对照组。2018年4月—2021年7月作为亚专科护理模式实施后阶段,此期收治的40例重症急性胰腺炎病人为观察组,比较两组病人相关临床指标。结果:观察组腹痛缓解时间、腹胀缓解时间、肠内营养启动时间、平均血糖值、
睡眠是人体的生理表现,在经历一天的工作和生活后,充足的睡眠可以使大脑和身体得到有效的放松和休息,进而恢复机体的正常功能。然而,当睡眠条件满足患者却无法正常入睡时,则属于失眠现象[1]。长期失眠可诱发心脏病、消化系统疾病以及精神类疾病等。有资料显示[2],大部分失眠患者同时会伴有抑郁、焦虑的情绪。临床上常采用艾司西酞普兰片治疗抑郁、焦虑情绪,具有良好的治疗效果,但是长时间的服用通常会产生药物依
目的探讨重症急性胰腺炎出院患者健康行为能力与生活质量之间的相关性,寻找提高患者院后生活质量的新思路。方法采用一般资料调查表、中文版健康行为能力自评量表、SF-36量表对重症急性胰腺炎出院患者进行调查,分析在人口学特征、社会心理状况等因素的共同作用下,患者健康行为能力对生活质量的影响。结果共67例出院患者完成本次调研,其生活质量和健康行为能力总分分别为(627.4±62.8)和(64.3±8.9)分
为了准确了解区域土地、人口、资源利用状况,推动区域可持续发展,以清河县为例,基于"三生空间"构建评价指标,采用层次分析法、模糊综合评价法对指标进行赋权,综合评价国土空间现状。结果表明,清河县的国土空间综合利用情况较好,但也应注意保持耕地总量动态平衡、放慢建设用地增加速度、提高人口素质等问题。同时验证了对国土空间现状评价研究方法的可行性。
本实用新型公开了一种耐高温能力强的橡胶输送带,包括底层,底层顶端固定连接有下夹芯层,下夹芯层顶端固定连接有上夹芯层,上夹芯层顶端固定连接有覆盖胶,底层、下夹芯层、上夹芯层和覆盖胶内部均开设有通气孔,覆盖胶内部开设有连接孔,本实用新型通过底层、下夹芯层、上夹芯层和覆盖胶,
幼儿园大班的儿童在建构区进行游戏活动的时候,会产生很多行为,这些行为有其独具年龄特色的特点,幼儿园教师要及时观察总结,对幼儿进行积极的引导教育。幼儿园教师是幼儿在接受学龄前教育的过程中主要的引导者和监督者,他们在班级中充当着指导幼儿、保护幼儿和教导幼儿的作用。不同年龄段的幼儿有其各自不同的行为特点和行为方式。为了能够清楚这些内容,幼儿园教师需要对大班幼儿建构区活动行为进行观察和了解,并对
构建多语言公共数字文化服务平台的信息组织标准规范体系,对于促进公共数字文化工程融合创新发展、推动国内外文化交流具有重要意义。对我国公共数字文化服务平台信息组织标准规范的建设现状进行调研后可以发现,我国公共数字文化服务平台在多语言信息组织标准方面存在缺失。因此,结合世界数字图书馆、欧洲数字图书馆等国外公共数字文化服务平台的多语言信息组织实践,从对象数据标准、元数据标准、知识组织标准三方面构建了我国多