论文部分内容阅读
近几年来,在人工智能领域中深度强化学习取得令人瞩目的成就。在处理大规模连续状态空间的任务上,深度强化学习方法成功解决了传统强化学习方法中的“维数灾难”问题。深度Q网络存在高估动作值的问题,导致算法性能差强人意。深度双Q网络尝试将动作的选择和评估分离,一定程度上缓解了深度Q 网络的过高估计问题,但仍出现了低估动作值的现象。本文致力于提高深度强化学习中目标值计算的准确性,针对深度Q网络的高估和深度双Q网络的低估问题,进行以下3个内容的研究:(1)将强化学习方法中的基于权重的双估计器引入到深度Q网络中,通过加权计算的方式在深度Q网络和深度双Q网络中寻找平衡。为了进一步地提高目标值计算的准确性,将平均值深度Q网络算法中的平均值思想加以改进,提出基于时间差分误差的平均值方法来计算目标值。最后,将带权重的深度双Q网络和改进后的平均值方法结合,提出了基于权重平均值的深度双Q网络算法。通过多组实验证明,该算法在Atari 2600平台上的性能具有较大提升。(2)为了进一步地缓解深度Q 网络固有的高估以及深度双Q网络固有的低估问题,使用强化学习中的同策略方法代替Q学习算法对两个网络进行计算,通过权重的方式计算目标值。不同于Q学习这种异策略算法,同策略方法具有更强的收敛保证,且在在线更新中更具有潜在优势。因此为了提高目标值计算的准确性,提出了一种基于权重的深度双Q(σ)网络算法。该算法通过Sarsa算法和Expected Sarsa算法的线性组合计算评估网络和目标网络的分量值,最后利用权重将两者的分量值结合计算最终的目标值。实验表明,在Atari 2600游戏中,该算法具有优异性和稳定性。(3)同策略方法虽然能够保证收敛性,但是存在探索不充分的情况。而异策略方法使用了与目标策略不一致的行为策略,能够让智能体发现更多重要的状态信息。为了进一步缓解深度Q网络存在的过高估计缺陷,提出了一种基于异策略和同策略结合的深度双Q网络算法。该算法对评估网络使用异策略方法计算分量值,对目标网络利用同策略方法计算分量值,然后通过权重加权计算目标值。实验表明,该算法在多个视频游戏任务中的性能得到提升。本文主要基于值函数的深度强化学习算法,针对深度Q网络高估问题进行研究,致力于提高目标值计算的准确性并提升算法的性能。