论文部分内容阅读
基于深度强化学习策略,研究了机器人手臂控制问题。以两节机器人手臂为对象,给出奖励函数和移动方式等。结合深度学习与确定性策略梯度强化学习,设计深度确定性策略梯度(DDPG)学习步骤,使得机器人手臂经过训练学习后具有较高的环境适应性。实验表明基于深度强化学习机器人手臂可以快速并且准确的找到在环境中移动的目标点。