论文部分内容阅读
人类在成长过程中,会经历从老师处学习知识和自主探索获取知识两个阶段。受此启发,模仿学习、强化学习等机器学习方法开始被应用于机器人技能获取。特别是现在结合视觉技术,机器人可以感知丰富的环境状态信息,用于策略学习或者交互探索。根据以上内容,本文开展基于模仿学习和强化学习的机械臂运动技能获取研究,主要包括以下几个方面:首先,基于RGB-D图像能够映射三维空间信息的属性,提出了一种与RGB-D图像交互的机械臂示教方法(RGB-D image interaction demonstration,RGBD-ID),该方法结合智能交互思想并面向任务级示教。Kinect V2作为视觉传感器实现物体识别和定位,基于MoveIt!运动规划软件实现高层动作规划。将RGB-D图像作为示教平台,在图像中与一个物体交互并选择一个高阶动作,引导机械臂在实际工作空间操作对应的物体,多步的交互就组成了一项运动技能的示教轨迹。然后,开展了从示教中学习技能的研究。根据人类技能获取行为和RGBD-ID方法每一步与一个物体和一个动作交互的特点,提出一种由目标物推理网络(Objects list network,OLN)和策略学习网络(Policy learning network,PLN)组成的模仿学习架构(OPLN)。OLN和PLN均由LSTM神经网络构建,其中OLN学习了物体的操作顺序关系,PLN学习了物体的状态属性,从而机器人能够在较高的认知水平上实现自主推理和技能获取。在无人为干预的情况下完成从示教中学习到策略。再次,进行了基于强化学习的机械臂运动技能获取研究,通过与环境交互自主学习策略。针对机器人操作任务,提出一种基于物体构形匹配(Objects configuration matching)的通用的奖赏函数设计方法,根据向量相似性度量方法计算物体目标构形和当前构形的相似性,构建即时奖赏为关于该相似性的函数。以Actor-Critic算法为主体结构搭建了机械臂强化学习模型,结合设计的奖赏函数学习优化技能策略。最后,针对上述方法搭建了相应的实验平台。实验平台的硬件系统包括UR5机械臂、气动二指手抓、Kinect V2深度摄像头等;软件系统由ROS机器人操作系统、MoveIt!运动规划库、Matlab、pytorch神经网络框架等组成。设置了堆叠积木任务和Pick and Place任务,验证了本文RGBD-ID方法、模仿学习模型和强化学习模型用于机械臂获取运动技能的有效性和可行性。