策略重用相关论文
人工智能时代下,强化学习是赋予智能体在开放多变的物理环境中具有自主决策能力的重要手段。然而,由于强化学习在训练过程中需要智......
策略重用(policy reuse,PR)作为一种迁移学习(transfer learning,TL)方法,通过利用任务之间的内在联系,将过去学习到的经验、知识......
为了处理探索环境中的变化和减少智能体不必要的从头学习的时间,研究了对探索环境的预处理方法,提出了运用轨迹标记的Q学习算法尝......
在多Agent系统中,由于环境是动态变化的,其他Agent行为是未知的,要建立领域完备的先验模型几乎不可能,而且许多领域知识也是在Agen......
在RoboCup Keepaway中,球员使用强化学习能获得很好的高层策略。然而由于Keepaway任务的状态空间巨大,强化学习需要探索很多步才能......