论文部分内容阅读
在星体表面运动时,行星车的路径规划作为自主决策系统的关键组成部分,是其能够安全高效地开展科学巡视探测的重要保证。特别是,在未来为了大规模探测高价值的科学目标,可能存在宇航员和多个移动机器人联合作业的情景,由此伴随着更为复杂的动态环境。在传统的规划方法中,行星车的所有行为都来自于地面人员预先定义好的规则,但是行星车的作业环境不是完全已知的,这时就需要行星车具备一定的自适应能力,应对环境发生的变化。为了进一步提升行星车的自主决策能力,并解决传统人为规划框架中过于依赖地图信息的问题,基于深度强化学习理论提出了端到端的路径规划方法,直接从传感器信息映射出动作指令再发布给行星车。同时采用不同的神经网络结构分别处理不同的传感器信息,最后将环境特征融合在一起,构成基于D3QN PER的多传感器行星车路径规划方法。首先,对深度强化学习的基础理论进行了深入的研究。分别采用卷积神经网络处理视觉图像信息,长短期记忆处理激光雷达点云信息和自身状态信息,继而给出了行星车的环境特征融合方案。同时汲取其他深度强化学习算法的优点,将D3QN PER算法应用于多传感器行星车的路径规划方法中,通过输出速度和角速度指令来控制它的运动。其次,搭建仿真环境,分三步验证算法的有效性。第一步,测试深度强化学习的相关算法是否能够在空旷的环境下引导行星车到达终点,由路径规划的结果可知,D3QN PER比DQN的其他衍生算法更具优势。第二步,将行星表面的沙砾和岩石简化为静态障碍环境,验证基于D3QN PER的多传感器行星车路径规划方法的避障性能,并将它与传统的RRT*算法进行了对比分析。第三步,将行星表面的宇航员和多个移动机器人简化为动态障碍环境,直接加载由静态障碍环境下训练好的网络模型,由实验结果可知,行星车对环境发生的变化具有较强的自适应能力,同时将该方法与传统的人工势场法进行了对比分析。最后,通过加载由仿真环境中训练好的网络模型,使用Jackal移动机器人进行了实物验证,测试了基于D3QN PER的路径规划方法在真实环境中的适应性,从而为实际的巡视探测提供可靠的实验支撑。