【摘 要】
:
针对现有方法难以预测出符合飞行移动目标不确定行为方式轨迹的问题,提出基于逆强化学习的飞行移动目标轨迹预测方法,通过学习目标行为偏好以及模拟目标行为决策过程的方式预测目标的移动轨迹。首先基于深度神经网络建立目标的行为决策模型与行为偏好模型,然后通过最大熵逆强化学习方法交替地学习模型参数。为了有效地学习目标的不确定行为特征,采用监督学习的方法学习出目标示例轨迹概率分布模型,用于指导目标行为偏好模型的训
【基金项目】
:
国家自然科学基金(61973101);
论文部分内容阅读
针对现有方法难以预测出符合飞行移动目标不确定行为方式轨迹的问题,提出基于逆强化学习的飞行移动目标轨迹预测方法,通过学习目标行为偏好以及模拟目标行为决策过程的方式预测目标的移动轨迹。首先基于深度神经网络建立目标的行为决策模型与行为偏好模型,然后通过最大熵逆强化学习方法交替地学习模型参数。为了有效地学习目标的不确定行为特征,采用监督学习的方法学习出目标示例轨迹概率分布模型,用于指导目标行为偏好模型的训练以及初始化目标行为决策模型,同时通过对目标行为偏好模型进行预训练的方式提高其训练质量。仿真结果表明,提出的飞行移动目标轨迹预测方法可通过学习到的目标行为决策模型较为准确地模拟目标的行为方式,预测的目标轨迹分布与真实的目标轨迹分布在Kullback-Leibler(KL)散度下的相似度可达0.24。
其他文献
短视频的出现,使得文化使用者的媒介实践具有“使用者”意义。乡村青年群体以自身视角表达地方文化,进行地方文化传播实践,不仅是媒介使用者的内容生产,更是文化传承的主体性建构。本文认为,地方文化空间的视觉逻辑是使文化空间与媒介空间有效转换与可见的关键因素。
补正履行请求权是原履行请求权的继续,性质上属于原给付请求权。《德国民法典》和《日本民法典》等,继受罗马法,经过了买卖物瑕疵之补正履行付之阙如,到如今直接赋予了买受人的补正履行请求权两个阶段。我国《民法典》第582条将瑕疵担保责任统合入违约责任,补正履行请求权制度基础是无瑕疵之物的履行请求权,出卖人给付之标的物有瑕疵,买受人得请求补正。我国补正履行选择权采“债权人选择权模式”,补正履行之选择权之性质
句法分析任务是句子理解的重要中间过程之一.其中,概率估计一直是句法分析领域的一个核心问题.然而,无论是神经网络方法还是深度学习时代以前的方法,采用基于全局概率模型的句法分析工作都非常少,主要的原因在于树形条件随机场(TreeCRF)推断的高复杂度.在本文中,我们提出将TreeCRF应用到依存句法和成分句法这两个主要的句法分析任务.为了解决TreeCRF的低效问题,关键的想法是批次化树结构的推断算法
目的:了解2011年至2020年苏州大学附属儿童医院感染性腹泻患儿肠道病原菌的流行病学特征,分析肠道病原菌的菌谱变迁、耐药现状,探讨优势血清型感染患儿的临床表现、实验室检查特点、预后及疾病负担,为细菌感染性腹泻患儿的诊治提供依据。方法:调查2011年01月01日至2020年12月31日期间苏州大学附属儿童医院腹泻患儿粪培养阳性的菌株,分成2011~2015年和2016~2020年两时间段,并按不同
流域横向生态补偿是明确流域内各区域的权利义务关系、促进上下游协同发展的有效制度。目前,我国已经形成了流域横向生态补偿法律制度的基本框架,实践中更是有不少流域上下游之间已经签订横向补偿协议,并逐渐从一期过渡至三期。无论是从立法层面或是实践层面来看,我国流域横向生态补偿的发展态势良好。但与此同时,我国流域横向生态补偿法律制度依然存在一些规范性问题:例如:以跨界断面水质水量作为补偿基准的做法偏离了生态补
21世纪以来,我国发布一系列人工智能战略文件,大力发展人工智能技术,如今已将人工智能技术广泛应用在交通、医疗、金融、司法、军事等各个领域。人工智能技术一方面提高了人民生活水平和社会发展水平,另一方面也带来了严重的刑事风险,如发生侵犯公民个人信息案、支付宝网络诈骗案、车辆事故等。目前,我国尚处于弱人工智能时代,人工智能技术的刑事风险往往来自研发者、使用者或监管者违反人工智能技术规范实施的行为。而强人
相较于企业破产后的债务清盘,个人债务人破产后本体依然存在,仍然具有人力价值,因而个人破产后会涉及剩余债务安排问题,破产的运行与免责息息相关。但是破产并不等于免责,免责也不是破产的必然结果,两者各有其考量要素。相对而言,破产强调对违约债务人的惩罚,具有强制公平清偿的目的;免责则是对诚实而不幸的债务人的救济。可见两者是不同方向的两种力,任一种力量过强都会导致天平的倾斜:倾向债权人一方会忽视债务人的生存