论文部分内容阅读
导航即机器人从当前位置到达目标姿态,并在这个过程中不与任一障碍物发生碰撞的能力,是移动机器人的核心功能之一。目前已有的成熟技术都是在已知的环境地图上进行规划。相比较,包括人在内的动物能够在知道目标大致方位或特征的基础上穿过或稀松或稠密的障碍物到达目标点,实现无地图导航。强化学习是一种智能体从与环境的不断交互中学习的算法,适合于连续决策的任务,是目前无地图导航的主要研究方向。本文研究了基于强化学习的从记忆到推理两个层次的移动机器人无地图导航,所设计的规划器以RGB图像作为视觉输入、以机器人与目标点的相对位置作为目标信息。提出了使用近端策略优化的端到端导航策略;提出了将视觉图像先压缩再将压缩的特征输入强化学习网络的导航策略,使得规划器的采样效率显著提高;设计了堆积长短时记忆结构使得强化学习网络具有推理能力。为了测试、比较不同的网络结构和算法,搭建了一系列的基准环境并提供了环境接口可快速调用。首先,针对记忆任务提出了基于近端策略优化的端到端导航策略,搭建了基准仿真环境,在该环境中与经典的基于深度Q网络的端到端导航策略进行比较。其次,端到端强化学习网络中用于提取图像特征的的参数无需从交互中学习,可由变分自编码器单独训练。基于此,提出了基于变分自编码器的图像压缩方法,将输入的RGB图像压缩为低维特征后直接与其它低维信息一起输入决策层学习,使得强化学习的采样效率提高了2倍以上,且所规划出的路径更优。然后,机器人不止要能够克服传感器和环境噪声到达训练过的目标点,还要具有一定的推理能力到达该环境非障碍物区域中的其它任一目标点。本文提出了具有推理能力的堆叠长短时记忆模块。基于该结构的规划器在测试环境中对新目标点的导航成功率超过60%,这是以单目视觉作为输入的密集场景无地图导航的最好结果之一。最后,在机器人平台上对提出的推理规划器进行了实物实验验证。实验平台为实验室自研的Mir-UR5,将策略迁移到实物中再训练600幕,规划器对测试集中新目标点的导航成功率达到了65%。本文的相关算法和基准环境开源以便于其他研究者复现本文中的结果以及进一步的研究。