论文部分内容阅读
强化学习是求解马尔科夫决策过程问题的重要方法。强化学习的研究已取得了丰富的成果,特别是自深度强化学习出现以来,强化学习在诸多领域都获得了相当成功的应用。基于值函数的强化学习是其中的一个重要分支,出现了以深度Q网络为代表的一大批经典算法。在迭代求解动作值函数的过程中,都会涉及到最大期望动作值函数的估计问题,与此相伴的是存在其中的估计偏差问题。这个问题同样也存在于机器学习的其它领域中。因此,对最大期望值的准确估计是个非常重要的问题。本文围绕值函数估计偏差修正问题展开研究,主要内容如下:(1)针对Q类学习算法高估、DQ类学习算法低估的问题,研究了最大期望值估计偏差产生的原因,并提出了相应的偏差修正思路。首先,提出了次序估计量,并对次序估计量的估计偏差进行了分析,使得现有的最大期望值估计方法均可视为次序估计量的组合形式。其次,分析了现有估计方法存在高估低估的原因,重点对最大估计量和双估计量的优势与不足进行了分析。最后,得出结论:单纯用某一个次序估计量参与值函数更新都会带来不同程度的估计偏差,有控制地随机组合多个次序估计量能有效修正估计偏差。本部分内容为后续研究工作提供了直接的理论指导。(2)以构造无偏估计量为目标,从随机并可控这个角度入手,提出一种基于集成双估计的偏差修正强化学习方法。首先,设计了一个集成双估计量,并从理论上证明存在合适的参数使该估计量无偏。其次,将集成双估计量用于强化学习值函数更新算法,分别提出了集成双Q学习算法和集成双深度Q网络算法,并从理论上证明了集成双Q学习算法的无偏性和收敛性。所提算法基于有随机特点的双估计框架,在使用最大化估计操作去评估动作的同时可控地加入双估计操作,避免了单独使用一个估计量时存在的高估或低估现象。(3)针对由于确定性选择值函数进行估计所导致的估计偏差问题,从随机选择的角度入手,将最大期望动作值的估计问题视为估计量的“选择”问题,提出一种基于随机选择估计策略的偏差修正强化学习方法。首先,设计了随机选择估计量,并从理论上证明了该估计量的无偏性。其次,将该估计量应用于强化学习算法设计,分别提出了基于随机选择估计策略的双Q学习和随机双深度Q网络。然后,对所提算法中的关键参数进行了研究,分别针对期望可求和期望不可求两种情况设计了参数的计算公式。最后,从幕随机选择估计的角度提出了幕随机双深度Q网络。(4)动作的探索和利用一直是强化学习的关键问题。智能体既要充分利用最大值动作,又要探索潜在的最优动作。通过分析,值函数估计也存在类似于动作选择的不确定性,既要利用已有的最优值函数,也要探索未知的值函数,以达到修正估计偏差的目的。因此,受动作的探索和利用启发,把对最大期望值的估计问题转化为对值函数的有效探索问题。从值函数有效探索这一全新的角度展开研究,提出了基于值函数探索奖励的贝叶斯深度Q网络。首先,以捕获值函数的不确定性为目的,在深度Q网络最后一层使用贝叶斯线性回归,构造一个值函数探索奖励项。然后,将该探索奖励项加入原值函数,构造出具有探索特点的新值函数。最后,在估计最大期望值时,用新值函数进行动作选择,用原来的值函数作为最大期望的估计。所提算法兼具了动作探索和值函数探索,有效平衡了估计偏差。(5)在贝叶斯深度Q网络中,用于计算目标值的动作来自后验分布的随机抽样,导致目标值的计算具有较大的波动性。为了增加贝叶斯深度Q网络的稳定性,将集成双估计方法及随机选择策略方法分别用于贝叶斯深度Q网络中目标值的计算,将后验分布均值用于目标值的计算以提高目标值的稳定性。基于此,分别提出了基于集成双估计的贝叶斯深度Q网络和基于随机选择估计策略的贝叶斯深度Q网络。在格子世界和雅达利游戏上的仿真结果表明,所提新算法能有效消除值函数估计偏差,提高学习性能,稳定学习进程。该论文有图28幅,表5个,参考文献114篇。