论文部分内容阅读
机器人在工业制造和人们的生活中发挥着重要的作用,在全自动化工厂(fullyautomatic factory)和无人驾驶(the driverless car)等领域都离不开机器人和相关机器人技术的支持。近年来,机器人运动规划已经成为了机器人学、自动化控制和人工智能等领域的研究热点之一。不过,机器人运动规划大多是基于精确的环境模型,无法处理不确定条件下的运动规划问题。该文针对不确定条件下机器人运动规划问题,提出使用深度强化学习的方法进行研究。概述运动规划相关知识,并分析传统运动规划方法所存在的问题;介绍强化学习和深度学习,分析强化学习应用在机器人运动规划上所存在的问题,并提出将深度学习与强化学习相结合以解决传统强化学习的高维度问题;分析深度强化学习方法应用在机器人运动规划上所存在的关键性问题,即奖励值模型、探索策略和神经网络结构,并给出相应的解决方法。该文主要内容如下:1.对强化学习中的奖励值模型进行研究。分析奖励值模型的影响因素及存在的问题,为更快速的训练系统,该文提出基于系统收敛速度的奖励值模型,并开展不同奖励值模型之间的对比实验。2.对强化学习中探索与开发的平衡问题进行研究。分析?-greedy策略所存在的问题,在探索新环境的时候,提出N?-greedy策略来处理探索与开发的平衡问题使得小估值动作也会被执行,以保证系统能更快速的探索新环境;并开展?-greedy策略与N?-greedy策略之间的对比实验。3.分析深度学习中神经网络结构对整个运动规划的影响。为设计出适合当前运动规划任务的神经网络结构,设计不同结构的神经网络,并开展相关的对比实验。4.实现基于深度强化学习的机器人运动规划算法,构建基于深度强化学习的机器人运动规划系统;开展在有障碍物与没有障碍物环境下的运动规划实验,以验证深度强化学习方法解决运动规划问题的可行性。