论文部分内容阅读
人们可以通过在线观看视频,学习从编织到跳舞再到玩游戏等许多任务,这展示出将从在线演示中所学到的知识迁移到现实任务的能力。人工智能中的智能体能否获得这种能力呢?最近,DeepMind的科学家们提出了一种新方法,通过观看YouTube视频,指导智能体进行探索以赢得难以完成的游戏。深度强化学习方法通常在环境奖励(environment reward)特别稀疏的任务中存在较大的困难。在这些领域中有一个成功的方法能够指导探索,就是去模仿人类演示者提供的轨迹。