论文部分内容阅读
Q(λ)学习算法是将值迭代与随机逼近的思想相结合,一种基于模型无关的多步离策略强化学习算法。针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error 的角度出发,给出n 阶TD Error 的概念,并将n 阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error 快速Q(λ)学习算法——SOE ? FQ(λ)。该算法利用二阶TD Error修正Q 值函数,并通过资格迹将TD Error 传播至整个状态动作空间,加快算法的收敛速度。在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T 主要指数依赖于1 11?γ ε 、。将SOE ? FQ(λ)算法用于Random Walk 和Mountain Car 问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度。