论文部分内容阅读
机器人控制作为智能制造和工业4.0的核心组成部分,随着深度学习在视觉任务上的蓬勃发展和强化学习在序列决策领域的应用,结合深度强化学习方法的机器人视觉控制方案具有研究价值。本文围绕深度强化学习领域,开展了基于注意力机制的目标检测算法、基于传统控制理论的策略网络、分步机器人控制方案和端对端机器人控制方案的研究工作,其中:1.针对当前主流深度学习检测框架缺少对候选框空间相关性的利用的问题,提出了基于强化学习和注意力机制的并行目标检测方案。强化学习对当前窗口进行序列变换时,能够获取到相邻时间步中图像的语义相关性,充分利用了高级图像特征中所包含的空间信息;基于注意力机制的状态初始化方案能够显著减少目标检测所需的步数。在公开数据集上的检测结果表明本文提出的方法能够达到准确的检测和分类效果,且产生的候选区域远远少于其他方法;2.针对目前强化学习算法中策略网络结构单一的问题,提出了基于比例-积分控制方法的新型策略网络结构,将强化学习、注意力机制和控制理论结合,能够显著提高算法性能和样本利用效率。该结构对几乎所有的深度强化学习方法都具有通用性。在公开强化学习仿真平台上的实验结果表明,该架构可以实现比目前常用的几种策略网络模型更好的性能;3.针对传统机器人控制方法依赖模型、缺乏鲁棒性等问题,提出了基于深度强化学习的分步控制方案和端对端控制方案,这两种方案均需要视觉输入。分步控制方案将目标检测网络和策略网络经单独训练后再联合训练,但泛化性较差且流程复杂;端对端控制方案只需输入图像即可预测最佳动作,在不同控制任务中均可使用。这两种方案在仿真环境下的实验证明,深度强化学习能使机器人从零开始学会掌握一定的操作技能。本文提出的目标检测方法、PI策略网络和端对端控制方案均具有通用性,除了适合机器人控制任务,也可以应用到其他强化学习任务和视觉任务中。