基于改进深度强化学习的固定翼无人机着舰控制

来源 :沈阳航空航天大学 | 被引量 : 0次 | 上传用户：ccssddnn_ccssddnn

【摘要】

：

【作者】

：

刘璐

【机构】

：

沈阳航空航天大学

【出处】

：

沈阳航空航天大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着航空工业的不断发展,研究人员对舰载无人机的控制方法进行了大量研究。舰尾流场和地面效应严重影响无人机着舰过程的稳定性和安全性,为提高自主着舰能力,本文利用深度强化学习（Deep Reinforcement Learning,DRL）中的双延迟深度确定性策略梯度（Twin Delayed Deep Deterministic Policy Gradient,TD3）算法以及改进的TD3算法,对受舰尾流和地面效应影响的无人机自主着舰问题进行研究。首先,描述了无人机自主着舰跟踪控制问题,将无人机着舰的离散时间模型转换为由状态量和控制量组成的有限马尔可夫决策过程,设计了基于深度强化学习的自主着舰控制器框架。其次,应用DRL中的TD3算法,设计了一个TD3自主着舰控制器。通过设计的TD3自主着舰控制器的训练框架,将每一训练回合产生的经验信息存入经验缓存池。接下来,从经验池中随机批量抽取经验信息,根据具体的控制器网络参数更新过程进行训练。使用训练好的TD3控制器进行模拟仿真,所得结果均符合飞行要求。将仿真结果与非线性控制中经典的动态逆控制器的仿真结果进行比较,发现TD3控制器不仅能够精确控制无人机的着舰轨迹,还能够应对动态逆控制无法解决的非线性舰尾流的影响,极大地提高了无人机着舰的安全性。最后,针对TD3算法的缺点,本文提出了改进的TD3算法,并成功应用于无人机自主着舰问题。该算法提出了一个具有2个actors和2个critics的新颖架构,分别用于评估确定性策略和动作值函数。与传统的单一经验池不同,改进的TD3算法根据是否成功着舰将经验池一分为二,分别通过优先经验回放方法和经验回放方法进行采样,提高了采样的有效率。最后,通过大量的学习和训练,得到了一个改进的TD3算法自主着舰控制器,能够在受舰尾流影响的环境中对无人机进行精确控制。仿真结果表明,该控制器显著提高了训练效率。

其他文献

航空发动机转静碰摩故障及其部位识别研究

转静碰摩是航空发动机转子系统的一种常见故障,碰摩严重时会损坏整个转子系统,引发严重的安全事故。论文对航空发动机转静碰摩故障及碰摩部位进行了识别研究。本文主要研究内容为:（1）考虑到噪声分量多分布于高频信号中,论文将固有时间尺度分解（ITD）算法应用到转静碰摩故障的部位识别中,直接去除了ITD算法分解后最高频对应的分量信号,并基于剩余的分量信号进行信号重构,同时将重构信号的归一化能量特征与BP神经网

学位

发动机后腔体隐身特性分析及发射率求解方法研究

航空发动机后腔体的雷达和红外隐身特征是战机后向隐身特征的重要组成部分,不同隐身材料涂覆方案导致的各部件发射率的差异,会直接影响发动机的后向雷达和红外隐身性能,因而迫切需要攻克后腔体雷达散射截面（RCS）和红外辐射特性数值计算和壁面发射率准确测量等关键隐身技术难题。由此,本文针对“发动机后腔体隐身特性分析及发射率求解方法”展开系列研究,为发动机隐身设计提供理论依据和技术支持,全文主要工作如下:（1）

学位

切换系统的事件触发MPC安全控制

切换系统由多个子系统和一个可调配子系统运行顺序的切换律组成,是一类重要的混杂系统,在控制科学领域和航空航天、电子、船舶等工程领域均广受关注。随着数字化传输技术的高速发展,网络化控制系统应运而生,它依靠开放式网络使多个异地分布机构/单元高效交互。将网络化技术应用到切换系统,可解决多模式控制下的传输低效问题,对现代控制理论的发展具有重要意义。然而,在网络化技术应用的同时,资源受限和恶意攻击等问题无法避

学位

基于电动飞机永磁同步电机的MTPA控制研究

由于新能源载人电动飞机无污染、飞行成本低等优势,近年来已成为国内外飞行器设计领域的热点。永磁同步电机具有效率高、寿命长、控制效果好的优点成为国内外各型号载人电动飞机驱动电机的首选。根据电动飞机飞行特性,电动飞机永磁电机对控制器要求较高,既要在转折转速（也称为基速,一般与额定转速相差不大）以下输出尽量高的转矩,还需要在转折转速以上短时间保持高功率输出。但电机转速达到转折转速后转速不再随电压升高,因此

学位

非完备信息下无人机空战决策与导引方法研究

无人机具有较强的机动性能与低成本优势,且近年来智能化技术水平大幅度提升,越来越多地被用于执行空战任务。为了应对瞬息万变的战场环境,如何使无人机可以自主合理决策并占据优势态势一直是现代空战相关领域的热点研究问题。现代空战中,无人机获取的战场信息通常具有不完备和不确定的特征,不能直接作为决策依据。为了解决这一问题,进一步提高无人机空战的智能性,本文提出了非完备信息下无人机自主决策与导引方法。首先,根据

学位

基于数据学习的战机飞行训练智能评估方法研究

战机飞行训练评估是飞行员训练过程中的一个重要环节。目前,在我国实际飞行训练环境中,评估训练效果的方法主要是根据教员的经验进行判断,主观性较强且自动化程度不高,不仅给教员造成较大的工作负荷,也难以保证评估结果不出现偏差。因此,结合飞行训练数据,采用人工智能方法客观、系统和全面地评估飞行员的训练水平是非常有意义的。为了提高战机飞行训练评估的准确性和自动化水平,本文提出了一种基于数据学习的战机飞行训练智

学位

自主移动机器人系统设计与路径规划算法研究

移动机器人在各行各业中均发挥着重要作用,机器人操作系统（Robot Operating System,ROS）的不断完善促进了机器人领域的发展。本文以清华大学的开源ROS系统作为操作系统,完成了一台自主移动机器人的系统设计,并对路径规划算法及建图与定位算法进行研究。最终实现了机器人规划工作路径、构建环境地图等功能,并能按照要求完成作业任务。首先,进行移动机器人系统设计,确定环境检测系统、主控制系统

学位

电动直升机自主起降控制系统设计与实现

电动无人直升机作为机动灵活的旋翼飞行器,被广泛应用于军事和农业领域。而自主起降是电动无人直升机重要的飞行功能之一,其研究意义非常深远。本文围绕着电动无人直升机的自主起降控制策略和飞行控制方法展开研究,主要研究内容如下:首先,从工程实际出发,分析地面效应、气流扰动、涡环状态等因素对电动无人直升机的影响,提出相应的解决方案,并制定完整的自主起降控制策略,其中将自主起飞过程分为稳定增速、离地爬升和定速爬

学位

重构溶瘤痘苗病毒OVV-Beclin1对弥漫大B细胞淋巴瘤的抑制作用及其机制的研究

目的弥漫大B细胞淋巴瘤（Diffuse large B cell lymphoma,DLBCL）是一组侵犯淋巴组织的血液系统恶性肿瘤。DLBCL一线治疗方案是利妥昔单抗（Rituximab,R）+CHOP（环磷酰胺 Oyclophosphamide,C;吡柔比星 Pharmorubicin,H;长春新碱 Vincristine,O;泼尼松Prednisone,P）。目前病毒-基因疗法正显示出其卓

学位

无人直升机建模与控制方法研究

无人直升机因其可以垂直起降、定点悬停、低速飞行、前飞、后飞等特点,在民事与军事领域得到了普遍的应用。然而,无人直升机是一个具有高阶、不稳定、非线性、强耦合特点的非线性控制系统,对其研究仍具有巨大的挑战。因此,本文以无人直升机为研究对象,针对其建模技术,飞行控制技术展开研究,旨在建立直升机的数学模型,并在此基础上进行飞行控制技术研究。首先针对无人直升机建模进行研究,根据无人直升机建模的安全性和可操作

学位

基于改进深度强化学习的固定翼无人机着舰控制

其他学术论文