论文部分内容阅读
一直以来,强化学习算法在解决与环境进行交互的控制决策问题时由于无法直接处理来自环境的原始感官数据,因而应用范围非常有限,并且已知成功的应用都高度依赖于人工设计的特征。近几年深度学习的发展将人工智能的研究推向了一个新的高峰。其中一个重要的成果就是,通过深度神经网络能够自动提取出高维图像中的特征,甚至比人工标注的特征更好。于是将深度学习技术融入到强化学习算法中所形成的深度强化学习算法逐渐成为强化学习领域新的研究方向。然而用强化学习算法生成的训练样本来训练深度神经网络需要消除样本之间的高度相关性。目前已有的方法是基于单个agent的经验回放技术,通过对历史经验数据的随机采样来获得相对独立的训练样本。然而经验回放需要消耗大量的内存,并且网络的迭代速度有限。本文则利用多个agent并行执行生成彼此独立的训练样本,并将其混合以后最终用于网络的训练当中,从而解决复杂游戏环境下的控制决策问题。具体工作如下:首先设计了一套针对游戏环境的预处理方案,方便网络训练的同时减小计算规模。然后对基于策略梯度的Actor-Critic算法结合多步TD方法的思想进行改进以减小回报值的估计偏差。接着设计了一个深度卷积神经网络结构来近似算法中的价值函数和策略函数,并完成对各种复杂游戏环境的特征表达。最后设计了一个基于多生产者-单消费者的并行化实现框架,通过多个agent和预测线程所组成的生产者以及作为消费者的训练线程的配合,消除了训练样本之间的相关性,从而提高网络的训练效率。实验表明,通过混合多个agent生成的训练样本来训练价值网络和策略网络的方式确实可以消除样本之间的相关性,并且能够稳定地输出最优策略。并且在本文实验的5个游戏环境中,算法的表现都超过了人类玩家的水平。同时该方法相比基于经验回放的deep Q-learning算法以及同样基于多agent并行的GA3C算法无论在训练效率还是最终表现上都有明显的提升。