基于强化学习的导弹拦截制导律设计

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qinslin5043
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
临近空间高超声速飞行器通常具有飞行速度快、机动能力强、轨迹规划灵活、突防能力强等独特优势,预计在未来几年将成为空天领域的主要威胁之一,然而目前尚未有成熟的针对临近空间高超声速飞行器的拦截防御系统。现有的制导律设计方法或在目标大机动时拦截效果差,或极其依赖于建立的拦截过程数学模型的精确性,因而不能解决对大机动目标的拦截制导律设计问题。随着对智能控制技术的发展,强化学习方法在解决导弹制导领域的问题中也受到了广泛的关注。强化学习是一种启发式直接自适应控制方法,使其在处理目标机动未知和目标机动较大的复杂场景拦截问题时具有自身独特的优势。针对上述考虑,本文基于强化学习方法,将其与拦截制导律设计过程相结合,提出了一种内外环结构的拦截制导律设计方法,分别在离线强化学习和在线强化学习的框架内研究了针对机动目标的拦截制导律设计问题。论文取得以下主要成果:(1)针对导弹拦截机动目标的作战场景在二维平面内建立了弹目相对运动状态数学模型,以导弹侧向加速度作为强化学习的动作空间,基于脱靶量、视线角、零控脱靶量等系统状态设计了奖励函数,建立了导弹拦截制导律设计中的强化学习环境。(2)提出了基于离线强化学习算法的导弹拦截制导律设计框架,基于内外环结构对比例导引制导律进行优化得到新的制导律。基于离线强化学习算法原理介设计了离线强化学习的奖励函数与训练方式,在拦截大机动目标场景下对制导律进行了仿真实验,验证了该制导律设计框架的有效性。(3)提出了基于在线强化学习算法的导弹拦截制导律设计框架,基于内外环结构对比例导引制导律进行实时优化得到新的制导律。提出了训练步数与指导步数的滚动学习方法,解决了学习过程的实时性问题。设计了用于逼近策略函数与价值函数的RBF神经网络结构和参数,设计了基于在线强化学习算法特点的奖励函数和训练方法,提出了一个间接判断RBF神经网络是否收敛的算法,提升了拦截过程的可靠性。在拦截大机动目标场景下对在线设计的制导律进行了仿真实验,验证了该制导律设计框架的有效性。
其他文献
公立学校和校外培训机构作为学生受教育的两个重要来源,却形成了减负与增负两个极端。随着校外培训市场规模的扩大,学生大量参与校外培训,其教育负担逐步加重,同时校外培训市场混乱,生育率断崖式下跌等问题逐渐凸显,如何有效减轻学生学习负担和家长经济负担,解决校外培训的相关问题,亟待教育政策的改革与完善。在此背景下,教育减负被提上政策议程,并最终导致了“双减”政策的出台。“双减”政策作为我国教育政策的新拐点,
学位
土地利用/覆被变化是导致地区生态系统碳储量变化的重要原因,探析土地利用与碳储量的时空演变规律,对区域国土空间规划与生态管理、实现“双碳”战略目标具有重要意义。通过构建GeoDetector-PLUS-InVEST模型,基于多源数据分析长株潭3+5城市群2000—2020年土地利用及碳储量时空演变特征,预测2030年不同情景下的土地利用和碳储量变化,并通过空间自相关模型分析碳储量空间分布规律。结果表
期刊
房地产属于资金密集行业,该特征决定了其高杠杆、高负债,近几年来国家对房地产企业的金融政策逐步趋严,“三道红线”从房企端约束增量开发贷、信托、资管等债务增速;“两道红线”从银行端约束房地产债务增速;“竞买人的购地资金(含竞买保证金、出让价款)来源应为经营性资金”严格限制了地产企业的规模增速。随着金融政策趋严,地产公司通过融资活动获取增量资金将受到严格管控;通过经营活动获取净现金流的速度在减缓;通过投
学位
学位
在我国乡村振兴以及民居低能耗的发展大背景下,政策引导民居建设要关注居住环境改善。虽然现阶段对民居形态特征以及室内热环境的研究较为充足,但是缺少民居形态特征对室内热环境影响关系的研究。汉中传统民居形态特征对室内热环境的优化研究,不仅是对传统建筑文化的传承,也是现阶段改善居住环境的实际需求。以汉中传统民居为例,采用了调研、模拟、数据对比及分析的方法,首先通过调研实地调查了汉中传统民居形态特征及热环境现
学位
高光谱遥感图像(Hyperspectral Sensing Image,HSI)可以捕捉到遥感数据中的精细的地物信息,并逐渐在灾害估计、海洋研究、精准农业等领域被广泛应用。HSI蕴藏着大量的地物信息,但也存在着大量的信息冗余,使得数据的处理变得更加困难和复杂。并且高光谱标记样本少,为图像分类带来了挑战。为了提高遥感图像的识别精度,针对以上问题,本文提出了三种方法,主要包括以下三个部分:第一,针对提
学位
针对煤矿综合废水处理手段落后、矿井水污染、水资源浪费严重的现状。提出了一种新的煤矿综合废水处理工艺,对矿井水依次进行净化处理、深度处理、浓缩加工、蒸发结晶,实现了对不同矿井水的集中处理,极大地提升了矿井水处理效率。根据实际应用表明,新的煤矿综合废水处理工艺,能够将矿井水回收率提高到96.7%,将废水处理成本降低到5.78元/t。
期刊
轻骨料混凝土具有质量轻、强度高、耐久性能良好和隔热保温能力强等优点,是一种有良好发展前景的环保建筑材料。但轻骨料混凝土脆性较明显,将其应用于地震区的竖向受力构件时,会导致结构延性较普通混凝土差。采用纤维增韧是提高轻骨料混凝土竖向受力构件抗震性能的有效手段。在轻骨料混凝土基材中掺加钢纤维或碳纤维,均可有效抑制轻骨料混凝土裂缝的扩展,提高轻骨料混凝土的抗拉、抗折强度和韧性,显著改善轻骨料混凝土竖向受力
学位
高速公路会因为道路养护以及交通事故等原因形成瓶颈路段,从而造成车辆与道路之间的供需矛盾,这是导致高速公路拥堵的主要原因。同时其自由流和拥堵流之间过渡区域存在过大的速度差,也容易引发交通事故,使高速公路失去了其安全高效的价值。本文主要对高速公路瓶颈路段的主动管控策略进行研究,并借助仿真系统对策略进行优化验证,以解决交通拥堵问题,但当前我国仿真软件研究相对欠缺,为了打破技术壁垒,避免被国外“卡脖子”情
学位
定期的桥梁裂缝检测是桥梁安全运行的重要保障。目前,基于深度学习图像处理的方法已应用于桥梁裂缝检测。然而由于桥梁裂缝图像存在细长、狭窄、光线差、噪声复杂等问题,导致深度学习模型的检测精度和效率较低,模型的鲁棒性较差。为此,本文提出了基于改进倒残差瓶颈和编码器-解码器的桥梁裂缝自动检测系统。(1)本文结合自主采集的桥梁裂缝图像和公共的桥梁裂缝数据集以及混凝土裂缝数据集,从而构建出完备的桥梁裂缝数据集。
学位