基于深度强化学习的工业机器人避障路径规划方法

来源 :制造业自动化 | 被引量 : 0次 | 上传用户:jayslacker
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
常规方法定义机器人避障奖赏函数时,仅在机器人到达目标位置后给出奖励,避障奖励稀疏,导致避障路径规划时间和长度较长、规划成功率较低.提出基于深度强化学习的工业机器人避障路径规划方法.利用传感器,探测机器人与障碍物和目标点之间的距离方位,构成状态空间,定义机器人避障决策奖赏函数,包括机器人与目标点的方位奖赏、距离奖赏、到达奖赏、每个避障动作奖赏,将状态空间信息输入神经网络,通过深度强化学习,输出下一时刻奖赏值最大的避障动作,形成最优避障路径.选择工厂厂房作为测试环境,改变障碍物数量和位置,布置工业机器人移动的简单场景和复杂场景,实验结果表明,设计方法减少了避障路径规划时间和长度,提高了规划成功率.
其他文献
本文介绍了 ZA27合金的发展历史,综述了 ZA27合金各元素的特点及其对组织性能的影响,重点讲述了 ZA27合金的强化工艺,为ZA27合金的发展指明了方向.