论文部分内容阅读
借助人工神经网络(Artificial Neural Network,ANN),深度强化学习在游戏、机器人等复杂控制任务中取得了巨大的成功.然而,在认知能力与计算效率等方面,深度强化学习与大脑中的奖励学习机制相比仍存在着巨大的差距.受大脑中基于脉冲的通信方式启发,脉冲神经网络(Spiking Neural Network, SNN)使用拟合生物神经元机制的脉冲神经元模型进行计算,具有处理复杂时序数据的能力、极低的能耗以及较强的鲁棒性,并展现出了持续学习的潜力.在神经形态工程以及类脑计算领域中,SNN受到了广泛的关注,被誉为是新一代的神经网络.通过将SNN与强化学习相结合,脉冲强化学习算法被认为是发展人工大脑的一个可行途径,并能够有效解释生物大脑中的发现.作为神经科学与人工智能的交叉学科,脉冲强化学习算法涵盖了一大批杰出的研究工作.根据对不同领域的侧重,这些研究工作主要可以分为两大类:一类是以更好地理解大脑中的奖励学习机制为目的,用于解释动物实验中的发现,并对大脑学习进行仿真,例如R-STDP学习规则;另一类则是以实际控制任务中的性能、功耗等具体指标为导向,用作人工智能的一种鲁棒且低能耗的解决方案,在机器人、自主控制等领域具有巨大的应用潜力.本文首先介绍了脉冲强化学习算法的基础(即脉冲神经网络以及强化学习),然后对当前这两大类脉冲强化学习算法的研究特点与研究进展等进行分析.对于第一类算法,本文重点分析了利用三因素学习规则实现的强化学习算法,并回顾了其生理学背景以及具体实现方式.根据在训练过程中是否使用ANN,本文将第二类算法分为依托ANN实现的脉冲强化学习算法与基于脉冲的直接强化学习算法,并率先对这一脉冲强化学习算法的最新进展进行了系统性的梳理与分析,同时全面展示了在深度强化学习算法中应用SNN的不同方式.最后,本文对该领域的研究挑战以及后续研究方向进行了深入的探讨,总结了当前研究的优势与不足,并对其未来对神经科学以及人工智能领域可能产生的影响进行展望,以吸引更多研究人士参与这个新兴方向的交流与合作.