论文部分内容阅读
结合深度神经网络和强化学习方法的深度Q网络在Atari 2600游戏平台上取得了巨大成功.相较于深度Q网络,深度循环Q网络具有记忆历史信息的能力,在部分游戏上显示出了更好的性能.然而在某些复杂的游戏环境中,一方面深度循环Q网络需要大量的训练时间,另一方面其在动作空间抖动的策略中不能做出合理决策.针对这些问题,本文提出一种带探索噪音的深度循环Q网络(Deep Recurrent Q-Networks with Exploratory Noise, EN-DRQN)模型.与在动作空间的探索方式不同,EN-DR