基于递推最小二乘法的多步时序差分学习算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:ws1984003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差,提出了基于递推最小二乘法的多步时序差分学习算法(RLS-加(λ))。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且得出和证明了值函数估计值的误差应满足的关系式。迷宫实验表明,与RLS-TD(0)算法相比,该算法能加快学习过程的收敛,与传统的TD(λ)算法相比,该算法减少了值函数估计误差,从而提高了精度。
其他文献
把影响农用土地环境质量的所有环境要素综合起来,分解量化指标,重建评价体系,提出宏观指标分等、微观指标定级的新观点,并就县市级农用土地环境质量进行全要素整合评价和等级
基于老子提出的和谐观,阐述了和谐图书馆建设的关键要素,提出了和谐图书馆实现的根本,即:以人为本。
通过筛选自然生境中的产色素菌株,从淡水鱼体中分离得到一株高产红色色素的Sm-128菌株.经形态观察、生理生化实验和16S rDNA基因序列分析,鉴定Sm-128菌株为粘质沙雷氏菌(Serra
矿产预测实质上就是对成矿系统演化过程精确表达的探索。面对时代发展的挑战,矿产预测将从过去以分析为主转变为以分析与信息相结合的方向发展。一方面,人们将继续采用新的实验