论文部分内容阅读
随着海洋强国战略的加快实施与海洋经济的迅猛发展,涉海产业日益繁荣,涉海活动日益频繁,各类海难事故时有发生。随着无人船的发展,海上无人救援技术也受到广泛关注。本文将无人船应用于海上救援场景,在获取遇险目标位置的条件下,研究无人救援船自主追踪并靠近漂移遇险目标的驾驶决策模型。针对参与救援行动的无人船数量不同,分别研究单救援船目标追踪驾驶决策模型以及多救援船协同目标追踪驾驶决策模型,协同追踪涉及协调任务分配、协调避碰的问题。本文从强化学习的角度对该问题进行分析研究,难点在于训练算法的环境平台搭建。由于在真实环境中训练算法有一定的危险性,本文基于ROS和Gazebo搭建海上救援物理仿真平台,对救援环境进行场景模拟。考虑双体船航行稳定性好、甲板宽敞便于搭载更多救援设备的优点,本文以双体船作为研究对象,在Gazebo中加载双体船机器人模型,并通过ROS创建传递驾驶指令的通讯网络,实现对无人船的运动控制。在单船救援场景中,将目标追踪过程通过马尔科夫决策过程进行描述,定义环境状态空间、动作空间以及奖励函数。引入具有经验回放机制的DDPG深度强化学习算法训练优化驾驶决策模型,模型训练的样本数据来自Gazebo,即无人船与环境交互采样的目标追踪驾驶行为数据。随着训练样本数据的累积,奖励函数引导算法收敛,得到最优的驾驶决策模型,使无人救援船具备了自主追踪漂移遇险目标的能力。将训练好的驾驶决策模型应用于多船救援场景中,实验表明虽然各船都可以追踪到漂移遇险目标,但是在追踪过程中任务分配机制较为死板,并且救援船之间无法避碰。提出MADDPG算法用于解决追踪过程中的协同性问题,设计局部环境状态空间,动作空间以及全局奖励函数,基于多船救援二维平面场景对算法进行训练,得到协同救援策略模型。算法收敛后,对模型测试的结果表明两艘救援船在追踪目标的过程中能够协调分配任务目标,且具有避碰能力,验证了算法的协同效果。本文从强化学习的角度探讨不同救援场景下的目标追踪问题,并通过实验验证算法的可行性。对海上无人救援实际工程中研究船舶如何自主驾驶追踪漂移遇险目标的问题具有一定的指导意义。