论文部分内容阅读
当人类学习一项新技能,往往是不断试错与计划的交织,机器也是如此.强化学习有基于模型的方法和无模型的方法.近日伯克利大学最新提出无模型深度强化学习方法-soft Q-learning(SQL)算法,该算法可以对模拟和现实世界的任务执行组合性,同时在该算法基础上提出了一种使用具有表达性的神经网络策略学习机器人操作技能的学习框架.该学习框架为学习各种机器人技能提供了一种有效的机制,并且在实际机器人系统的样本效率方面优于目前最先进的无模型深度强化学习方法.