鲁棒安全强化学习算法研究及其在无人机导航中的应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dysongbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习作为机器学习中重要的分支,可以不依赖于模型而仅依靠数据就能训练比人类表现更好的控制策略。因此,强化学习在机器人领域,尤其是无人机自主导航领域在近年来受到了广泛的关注。然而,由于现有的强化学习算法通常缺乏安全性和鲁棒性,使得其很少在实际场景任务中部署使用,大多算法都仅停留在实验室测试阶段。为此,现已有的安全强化学习研究中,通常在具有安全约束条件下进行策略训练,然而,这种无人机具有高机动性,其很容易造成策略生成动作使得状态违反约束。此外,为了提升策略鲁棒性,现有较多算法通常在各种参数可能变化的取值范围内进行策略训练。然而这种方式训练策略的计算资源代价过高。针对上述问题,本文将基于碰撞风险预测及对手化的对抗攻击强化学习算法,提出一种鲁棒安全强化学习算法,以训练用于无人机导航任务的策略,并兼顾安全性和鲁棒性。主要研究内容包括以下几个方面:(1)碰撞风险预测研究。针对现有无人机导航过程中的安全性,其不仅与当前与障碍物距离有关,还与当前无人机动作有关。本文通过构造神经网络模型,并利用深度学习中二分类方法进行训练。基于预测模型,在给定状态和动作序列下,预测模型能够准确给出当前状态-动作下无人机的碰撞风险。(2)安全强化学习算法。针对具有高机动性的无人机,状态约束无法保证其自主导航的安全问题,本文基于动态碰撞风险预测模型,提出一种基于碰撞风险预测的安全强化学习。利用碰撞风险预测模型实时预测状态-动作对的碰撞风险,以优化导航策略。(3)鲁棒强化学习算法。针对无人机导航过程中模型不确定性及无人机执行器延迟两个问题带来的策略鲁棒性差问题,本文基于对手化和对抗攻击方法,提出了同时采用上述两种方式对策略进行训练,保证了策略能够同时解决上述两个问题带来的影响。(4)基于对手化的对抗攻击鲁棒安全强化学习算法研究与仿真验证。基于上述研究内容,本文结合安全性和鲁棒性,训练具有鲁棒性和安全性的策略,在完成导航任务过程中,可以规划使得无人机能够获得高累计回报奖励,以及使得无人状态保持在安全约束内的动作序列。而后,本文在仿真环境中以一个无人机导航任务为例,验证了所提出算法的安全性和鲁棒性。
其他文献
大数据、云计算、人工智能等互联网新技术正逐渐融入人们的生活当中,与许多传统事物融合并改变它们,“互联网+政务服务”就是其中之一。自国家下发支持“互联网+”与各个领域快速融合的相关文件后,各地区的行政服务部门都在抓紧探索能够用“互联网+”思维和技术变革政务服务模式的道路。由此可见,研究分析“互联网+政务服务”能力受到哪些因素影响并提出能力提升方案及实施对策,对优化黑龙江省公共服务模式,提升现代化治理
学位
全球化的推进使得服务经济和数字经济已经成为大的发展方向。现实的数据表明,制造业企业在发展进程中逐步面临着技术瓶颈、产能过剩、市场饱和等限制。传统的产品制造已经不能再满足利润增加的要求,而技术赋能产品和产品服务客户的增能日渐明显。服务业务的开发和数字化转型的拓展已经成为制造业企业提升经济增值的一部分。本文旨在分析制造企业服务化和数字化的交互对于企业绩效的影响,同时研究探索两者关系中的情境因素。本文基
学位
随着科学技术和经济的发展,机械臂在生产生活中的应用也越来越广泛。当今的机械臂控制方式多种多样,可以通过固定的程序、手柄对机械臂的各个关节实现控制,也可以通过穿戴设备的方式进行控制。但是这些控制方式存在不灵活、不直观等诸多问题。为了改善机械臂控制系统的控制方式,本文提出了一种基于leapmotion的机械臂控制方案,机械臂操作者可以直接通过自己手部的动作来控制机械臂和其载具的移动,简化了操作流程,提
学位
近年来,由于疫情、人口老龄化等因素的影响,人们对于非面对面服务的需求明显增加,服务机器人成为人们关注的热点。服务机器人的自主导航能力是影响其能否顺利完成任务的关键因素,而定位技术是服务机器人自主导航关键技术中不可缺少的一部分。为了提高服务机器人在室内环境下按照预定轨迹移动时的定位精度,本文以三轮全向移动底盘的服务机器人为研究对象对服务机器人的定位方法等相关问题展开研究。本文的主要工作如下:(1)建
学位
光伏电池通过串并联的方式构成了光伏阵列,在光伏发电系统中发挥着重要的作用。因此,对光伏电池在不同状态下的参数进行准确辨识,探究电池模型中的基本参数对其性能的影响,是光伏电池结构优化、提高光伏发电系统工作效率以及实时控制的基础。本文基于梯度搜索方法和牛顿搜索方法,利用递阶辨识原理和多新息辨识理论探讨光伏电池模型的参数辨识问题,主要研究成果如下:(1)对于光伏电池非线性系统,以单二极管光伏电池模型为研
学位
从有限的示例中尽快适应新的类别,即小样本学习所面临的重要挑战。一类有效的模型为基于度量学习的框架,该类框架倾向于学习查询样本与支持样本间的相似性判别,从而有效地实现小样本目标分类。但现有方法仍存在一些可改进之处:比如对特征价值大小的区分以及在求取类表征时对每个样本的重要程度区分往往不够重视;其次,现有技术常依赖于特征提取主干网末层获取的特征来判别相似性,并未考虑到可将多个层次获得的特征适当利用;此
学位
好氧颗粒污泥(AGS)具有沉降性能好、污染物去除效率高等优势,是污水处理领域的研究热点,AGS技术已成功应用于高COD浓度的废水处理。但应用于生活污水处理时,因污水COD浓度相对较低,AGS面临污泥培养周期长、稳定性差的问题。本论文通过连续添加3~5mg/L Fe3+强化好氧颗粒污泥的培养,探究Fe3+对成熟AGS的稳定性的影响,并考察了AGS对模拟生活污水和实际生活污水的长期处理效能。AGS培养
学位
水井钻机电液伺服系统是高度非线性的,不仅存在负载质量变化、随温度和磨损造成的液压弹性模量、伺服阀流量增益、黏性摩擦系数等变化造成的参数不确定性;还存在水井钻机实际钻井工况下,由于井底岩层未知以及工作进程中大量泥沙喷射所造成的未知扰动所引起的不确定非线性;以及输入饱和、伺服阀开口方向切换、摩擦、阀芯重叠等不连续和不平滑的非线性特性。参数不确定性和不确定非线性的存在使依赖精确模型设计的控制器难以实现水
学位
在矿业生产中,由于井下运输通道狭窄,以及选矿工艺要求,往往需要对大块的原矿石进行破碎处理,传统的自动化矿石破碎系统由井下摄像头拍摄的视频信息引导人工操作,但由于视频传输速率低,井下环境恶劣等因素,往往无法精准定位,针对这些问题,本文提出一种以毫米波雷达成像技术为基础,结合了图像处理的井下原矿石定点破碎系统。具体研究工作如下:(1)设计了一套基于毫米波雷达成像的原矿石重构定点破碎系统的总体结构和工作
学位
实际工业生产过程由于工况条件越来越复杂,呈现出强非线性、多输入多输出、多工作点等特点,多模型方法利用“分而治之”的思想能够有效处理此类非线性系统,并取得广泛应用。同时,机器学习的快速发展、开源软件以及深度学习框架的不断优化,也为多模型方法提供了丰富的场景。本文针对非线性系统,提出一种多模型结构框架,其子模型采用RNN神经网络结构,利用前向传播算法和反向传播算法训练;然后采用BP神经网络结构把子模型
学位