论文部分内容阅读
随着生产力需求的不断提升,机器人的应用场合及其应用规模日益增多,对于机器人的智能化需求也在不断加深。当机器人完成运动规划任务时,传统方法需要对机器人及其交互环境进行精确建模,该方法虽然可以有效的完成机器人运动规划任务,但其存在对物理模型敏感、泛化能力差以及实时性差等问题。为解决上述问题,论文基于强化学习理论,将模仿学习与机器人运动规划相结合,分别在回报函数可以明确给出以及无法明确给出的情况下,采用深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)方法对机器人模仿学习方法进行了研究,并以此为核心构建了机器人模仿学习系统。论文主要研究内容如下:1.回报函数明确情况下的机器人模仿学习方法研究当回报函数可以明确给出时,机器人模仿学习的主要问题是探索问题与回报工程问题,本文针对上述问题提出了一种基于事后经验回放(Hindsight Experience Replay,HER)的机器人模仿学习方法。该方法分别利用示教数据和HER机制解决探索问题和回报工程问题,保证机器人在稀疏回报下快速完成运动规划任务。实验结果表明,本方法即便利用低成功率的示教数据也能快速的完成稀疏回报下的机器人运动规划任务;同时该方法可以有效的抑制机器人在运行过程中的抖动现象,保证机器人的平稳运行。2.回报函数不明确情况下的机器人模仿学习方法研究在回报函数无法明确给出的机器人模仿学习问题中,传统方法存在计算量大、学习速度慢等问题,针对上述问题,本文提出了一种确定性生成对抗式模仿学习(Deterministic Generative Adversarial Imitation Learning,DGAIL)方法。该方法将DDPG与生成式对抗网络(Generative Adversarial Network,GAN)相结合,保证机器人能够快速完成对示教策略的模仿。实验结果表明,本方法可以在无环境回报的情况下,通过对示教数据的模仿有效完成机器人运动规划任务,并且学习速度受任务难度的影响较小;除此之外,本方法具有较高的稳定性,无论机器人面临何种状态,最终均能通过对示教数据的模仿完成运动规划任务。3.机器人模仿学习系统的构建以上述两种情况下的机器人模仿学习方法为核心,结合基于惯性传感器的人体动作信息采集系统,构建机器人模仿学习系统。该系统利用6-DoF姿态预测方法对所操作物体进行检测,并针对不同的任务难度分别采用上述两种方法完成机器人的运动规划任务。机器人模仿学习研究是机器人的重要研究方向。本课题的研究工作既具有重要的理论价值也具有较大的实用价值,有助于设计和研制更为智能、自主和具有适应性的智能机器人。