论文部分内容阅读
近几年来,计算机软硬件飞速提升,以无人汽车、无人机为代表的智能移动机器人越来越贴近人们的生活。移动机器人在场景中执行任务时,它们所需的一个最基础的能力就是避障。对于传统的非机器学习类的避障算法,有的算法需要开发者构建场景的三维结构而有的算法不需要构建三维模型,但是需要手动调整大量的参数,且机器人在避障的过程中不能利用避障经验进行自我迭代。对于大部分基于卷积神经网络的算法,将避障问题建模成一个基于监督学习的分类问题,但需对每个样本的标签进行手动标注,既费时又费力。而基于深度强化学习的避障算法不需要对复杂的场景进行三维重建,直接将避障问题建模成一个决策过程,实现一个端到端的输出,但对于陌生场景依然存在泛化能力不足的问题,并且在陌生场景下微调网络需要花费很长的时间。本文致力于研究一个可以快速准确且能同时应用于不同场景的反应式避障系统。在反应式避障方面,本文首先提出了基于机器人自我动态空间转换(Ego Dynamic Space Transform,EDST)的改进算法,利用单目深度估计的深度图作为输入,选择出下一时刻最优的航点,同时本文运用深度强化学习中的Double Deep Q Network(Double DQN)算法来搭建一个端到端的系统,该算法利用机器人观测到的深度图作为输入,直接输出执行动作,并对以上两种算法进行避障效果对比;对于不同场景之间,本文提出对抗学习的领域自适应方法(Adversarial Discriminative Domain Adaptation,ADDA),通过判别网络引导映射网络将目标场景的特征映射到源场景的特征空间中,并且利用源场景的决策网络实现动作命令的输出,最终实现机器人在不同场景的反应式避障。经过实验测试,本文算法通过深度图可以指导机器人避障。在此基础上针对陌生场景,本文提出的迁移学习算法相比于微调网络,节省了大量训练时间。此外,我们还在真实场景下搭建了无人机飞行避障系统,证明了本文算法的实用价值。