论文部分内容阅读
强化学习是机器学习领域中的重要分支。强化学习通过与环境交互获得奖赏信号,使期望奖赏最大化,以获得最优策略。根据行为策略与目标策略是否相同,强化学习方法可分为同策略方法和异策略方法。异策略方法是行为策略与目标策略不同的方法,具有实现简单、计算快速等特点,被广泛应用到实际问题中。Q-Learning是一种重要的异策略时间差分控制方法,但是在一些随机环境中,如在具有高随机奖赏和高折扣因子的最优控制问题中,Q-Learning会产生很高的统计误差。造成这种现象的原因是在更新时使用估计值的最大值作为真实最大值的估计而引入的正偏差,这种正偏差被称为最大化偏差,会损害策略的质量,影响算法的收敛速度。针对上述问题,提出三种校正最大化偏差的异策略强化学习方法。主要研究包括以下三部分内容:(1)面向Q-Learning的异策略最大化偏差校正算法的研究。针对传统Q-Learning在解决最优控制问题时会产生最大化偏差这一问题,从实践角度出发,给出Q-Learning更新方程的累加形式,分析了正偏差的产生原因以及正偏差影响Q-Learning收敛速度的原因;其次,给出更新方程的一种泛化形式,以方便对估计器进行改进;在此基础上提出一种新的基于Q-Learning的异策略最大化偏差校正算法。该算法使用当前估计值替代之前所有有偏的估计值,重新构造估计器以修正状态动作值函数,减少最大化偏差对于值函数收敛的影响,提高收敛速度和收敛精度。(2)面向资格迹的异策略最大化偏差校正算法的研究。针对在大规模离散状态空间中,使用资格迹进行信度分配会加剧最大化偏差的问题,提出了一种面向资格迹的异策略最大化偏差校正算法,由改进的估计器得到较准确的估计值进行值函数更新,使用资格迹将当前的TD误差传播到整个值函数空间,提高数据利用率,加快值函数的修正速度,提高算法的收敛性能。(3)面向Dyna框架的异策略最大化偏差校正算法的研究。针对在模型可知的复杂任务中,Dyna-Q算法将学习过程和规划过程结合起来以提高数据利用率,但在两个过程中都会产生最大化偏差,导致算法收敛较慢且难以适应变化环境等问题,提出了一种面向Dyna框架的异策略最大化偏差校正算法。该算法通过优化值函数更新时使用的估计器,减少在学习过程和规划过程中估计值函数产生最大化偏差,使用规划进一步提高算法的收敛速度,使算法在环境模型改变时能够快速做出反应。