论文部分内容阅读
在强化学习(Reinforcement Learning)算法理论中,最近有学者提出了一个新的估值算法[Q(σ)],这里[σ]是采样度(degree of sampling),这是一个介于全采样(full-sampling)和非采样(no-sampling)的新方法。[Q(σ)]统一了Sarsa和Expected Sarsa等传统算法,但是[Q(σ)]的提出者只在实验上验证了算法的有效性。该文对[Qσ]的收敛性作了理论分析,证明了在一定条件下[Q(σ)]是收敛的。