论文部分内容阅读
近年来,智能控制算法已经成为机器人控制领域的热点研究问题,而其中深度强化学习作为人工智能领域的一个分支,已经成功应用于机器人控制中的很多方面,使机器人可以具有传统控制方法所不能给予的环境交互和自主学习能力。其中机械臂作为机器人的重要执行机构,针对机械臂的智能控制算法研究也逐渐得到了广泛关注,但是由于机械臂操作模型较为复杂,环境动态多变,智能控制算法在机械臂控制中应用还存在很多问题。因此,本文基于深度强化学习的方法,实现机械臂由视觉感知到行为决策的完整控制过程,针对控制算法提出改进措施提高智能控制算法在机械臂控制领域中的学习性能。本文首先基于深度强化学习算法中的DDPG算法,根据机械臂的实际操作环境,针对DDPG算法采样效率低、奖励稀疏的问题,提出了改进DDPG(MDDPG)算法,提出了目标自适应改进措施和奖励重塑方案,在仿真环境下分别对MDDPG算法和DDPG算法进行训练,仿真结果显示,改进后的MDDPG算法可以提高大约2倍的学习速度。其次,考虑机械臂的实际应用条件,将计算机视觉方法引入控制策略,应用分层慢特性分析(SFA)法提取图像中的关键信息;针对实际机械臂操作环境中奖励稀疏的问题,提出了基于内在激励的强化学习算法(IMAC),通过对状态的预测得到内在激励奖励,并与外在奖励相结合,减少了奖励稀疏情况造成的影响,共同优化控制策略;在仿真环境下对SFA-IMAC算法进行训练,验证其在抓取成功率上有了显著提高;然后针对将虚拟环境下的控制策略迁移到真实环境中所遇到的问题,提出了基于动态模型的自适应控制策略,通过引入动力学参数并将其随机化处理,提高了控制策略对动态环境的适应能力,更有利于控制算法在实际环境中的应用。最后,综合所有算法,在一个6自由度机械臂实验平台上对算法进行验证和评估。通过在虚拟环境下对控制算法进行预训练,然后再迁移到真实手臂中,实验结果表明,真实条件下的机械臂抓取成功率可达到89%,验证了以上算法的有效性,提升了算法在机械臂控制中的性能,为今后的研究者们提供了一个智能控制的基本框架,对深度强化学习在控制领域中的应用做出一定贡献。