基于深度强化学习的无人救援船目标追踪研究

来源 :大连海事大学 | 被引量 : 2次 | 上传用户:z5748259
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着海洋强国战略的加快实施与海洋经济的迅猛发展,涉海产业日益繁荣,涉海活动日益频繁,各类海难事故时有发生。随着无人船的发展,海上无人救援技术也受到广泛关注。本文将无人船应用于海上救援场景,在获取遇险目标位置的条件下,研究无人救援船自主追踪并靠近漂移遇险目标的驾驶决策模型。针对参与救援行动的无人船数量不同,分别研究单救援船目标追踪驾驶决策模型以及多救援船协同目标追踪驾驶决策模型,协同追踪涉及协调任务分配、协调避碰的问题。本文从强化学习的角度对该问题进行分析研究,难点在于训练算法的环境平台搭建。由于在真实环境中训练算法有一定的危险性,本文基于ROS和Gazebo搭建海上救援物理仿真平台,对救援环境进行场景模拟。考虑双体船航行稳定性好、甲板宽敞便于搭载更多救援设备的优点,本文以双体船作为研究对象,在Gazebo中加载双体船机器人模型,并通过ROS创建传递驾驶指令的通讯网络,实现对无人船的运动控制。在单船救援场景中,将目标追踪过程通过马尔科夫决策过程进行描述,定义环境状态空间、动作空间以及奖励函数。引入具有经验回放机制的DDPG深度强化学习算法训练优化驾驶决策模型,模型训练的样本数据来自Gazebo,即无人船与环境交互采样的目标追踪驾驶行为数据。随着训练样本数据的累积,奖励函数引导算法收敛,得到最优的驾驶决策模型,使无人救援船具备了自主追踪漂移遇险目标的能力。将训练好的驾驶决策模型应用于多船救援场景中,实验表明虽然各船都可以追踪到漂移遇险目标,但是在追踪过程中任务分配机制较为死板,并且救援船之间无法避碰。提出MADDPG算法用于解决追踪过程中的协同性问题,设计局部环境状态空间,动作空间以及全局奖励函数,基于多船救援二维平面场景对算法进行训练,得到协同救援策略模型。算法收敛后,对模型测试的结果表明两艘救援船在追踪目标的过程中能够协调分配任务目标,且具有避碰能力,验证了算法的协同效果。本文从强化学习的角度探讨不同救援场景下的目标追踪问题,并通过实验验证算法的可行性。对海上无人救援实际工程中研究船舶如何自主驾驶追踪漂移遇险目标的问题具有一定的指导意义。
其他文献
睡床与人的健康密不可分。目前市面上的睡床现状为外观同质化严重,造型千篇一律,难以引起用户的情感共鸣;功能上缺乏对用户身体健康的思考。因此,本文提出将健康理念引入睡床
<正>幼儿园户外大型器械能综合发展幼儿体能并深得幼儿喜爱,其以吸引幼儿的外观和丰富的游戏主题,激发幼儿主动锻炼的兴趣;其功能的综合性,让幼儿在游戏的过程中得到多方面的
期刊
对(2+1)维KP方程进行相似变换、Miura变换等将其化为具有Painlevé性质的非线性常微分方程.在此基础上,一是进一步将Painlevé性质的非线性常微分方程弱化为Airy方程;二是引
主成分分析(Principal Component Analysis,PCA)方法是人脸识别技术中一种广泛应用的数据降维技术。从数学角度看,以K-L变换为基础的PCA人脸识别方法是基于统计的方法中最优
在新的人口形势下需要重新认识生育和养老的关系,即持续的低生育将导致普遍的养老风险,表现在微观上是家庭养老功能的严重弱化,宏观上是社会养老的人力储备不足。本文区分了"
随着我国民航业的快速发展,飞机出行正成为人们出行的主要方式。民航的飞速发展导致航班延误情况时有发生,航班延误不仅对航空公司的运行效率和服务质量产生负面影响,同时会
艾青的诗歌生涯曾有长达二十年的沉寂期,"归来"后的诗人并没有因为如此长时期的沉默而"失声",新时期的艾青仍然坚持诗歌的"战斗的传统",继续"为人民歌唱"。暮年的艾青,其诗歌
<正>医学认为,正气存内,邪不可干,邪之所凑,其气必虚。恶性肿瘤疾病的发生及肿瘤病人在手术、化疗、放疗等治疗过程中,所引起的机体免疫功能下降,是正气虚损,邪气乘虚而入的
通过对盘条及其生产的钢球的综合分析,特别是组织分析,发现钢球组织异常的原因是盘条球化退火温度偏高,防脱碳保护措施不够造成的。
将设计分类为"生产力设计"和"非生产力设计",其唯一的标准,是设计的产品是否为生产力,是否能持续不断地创造经济价值和社会价值。非生产力设计能够创建设计大国,却不能创建设计强