论文部分内容阅读
辽阔的海域不但蕴含着丰富的资源,而且还是贸易与文化的交流要道。大力发展海洋装备是提升我国海洋开发和管控能力的必要手段。自主水下机器人(AUV)作为一种探索开发水下空间的无人航行器,具有体积小、高速、智能、较好的隐身、无人伤亡等优点,能够出色完成各种科学考察和工程任务,有广泛的应用和重要的研究价值。本文以AUV为主要研究对象,从AUV自主航行时规避障碍物的策略出发,分别重点研究了静态环境下AUV路径规划问题和动态环境下AUV路径规划问题,具体内容如下:
首先,介绍了本文的研究背景及意义,分析了常见的路径规划算法的国内外研究现状。针对海洋环境的复杂多变性,将强化学习算法应用到AUV路径规划中,基于该算法提高AUV的环境自适应性和自学习能力。
其次,基于Actor-Critic算法进行了静态环境下AUV路径规划问题的研究。针对该算法在收敛速度方面的不足,本文提出了一种自适应学习率调整策略:考虑不同维度的学习率变化差异,根据累积梯度下降和当前梯度下降的信息,综合起来动态更新当前时间步的学习率。用自制训练地图进行训练,训练结果表明,该学习率调整策略有效提高了原算法的收敛速度,而且优化后算法的在收敛稳定性上也有所提升。
然后,针对动态环境下基于Actor-Critic算法,AUV在训练初期存在学习效率低和学习过程震荡的问题,本文提出多评论家行动者深度强化学习算法。多个评价家分别根据不同标准对Actor所选择的动作做出评价,然后通过评价融合形成一种综合评价,以解决单一评论家存在的评价耦合问题。通过定性和定量对比分析实验结果,该方法具备在线学习能力,并可以提高学习效率,满足AUV动态环境下路径规划的实时性和环境适应性需求。
最后,简要介绍了半实物仿真平台的概念及意义,所开发的路径规划系统软硬件结构。叙述了半实物仿真实验流程,以及两种算法在半实物仿真中的实验结果,由此证明了本文所提出的AUV路径规划方法的可靠性和实时性。
首先,介绍了本文的研究背景及意义,分析了常见的路径规划算法的国内外研究现状。针对海洋环境的复杂多变性,将强化学习算法应用到AUV路径规划中,基于该算法提高AUV的环境自适应性和自学习能力。
其次,基于Actor-Critic算法进行了静态环境下AUV路径规划问题的研究。针对该算法在收敛速度方面的不足,本文提出了一种自适应学习率调整策略:考虑不同维度的学习率变化差异,根据累积梯度下降和当前梯度下降的信息,综合起来动态更新当前时间步的学习率。用自制训练地图进行训练,训练结果表明,该学习率调整策略有效提高了原算法的收敛速度,而且优化后算法的在收敛稳定性上也有所提升。
然后,针对动态环境下基于Actor-Critic算法,AUV在训练初期存在学习效率低和学习过程震荡的问题,本文提出多评论家行动者深度强化学习算法。多个评价家分别根据不同标准对Actor所选择的动作做出评价,然后通过评价融合形成一种综合评价,以解决单一评论家存在的评价耦合问题。通过定性和定量对比分析实验结果,该方法具备在线学习能力,并可以提高学习效率,满足AUV动态环境下路径规划的实时性和环境适应性需求。
最后,简要介绍了半实物仿真平台的概念及意义,所开发的路径规划系统软硬件结构。叙述了半实物仿真实验流程,以及两种算法在半实物仿真中的实验结果,由此证明了本文所提出的AUV路径规划方法的可靠性和实时性。