论文部分内容阅读
常规方法定义机器人避障奖赏函数时,仅在机器人到达目标位置后给出奖励,避障奖励稀疏,导致避障路径规划时间和长度较长、规划成功率较低.提出基于深度强化学习的工业机器人避障路径规划方法.利用传感器,探测机器人与障碍物和目标点之间的距离方位,构成状态空间,定义机器人避障决策奖赏函数,包括机器人与目标点的方位奖赏、距离奖赏、到达奖赏、每个避障动作奖赏,将状态空间信息输入神经网络,通过深度强化学习,输出下一时刻奖赏值最大的避障动作,形成最优避障路径.选择工厂厂房作为测试环境,改变障碍物数量和位置,布置工业机器人移动的简单场景和复杂场景,实验结果表明,设计方法减少了避障路径规划时间和长度,提高了规划成功率.