基于递推最小二乘法的多步时序差分学习算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：ws1984003

【摘要】

：

强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差，提出了基于递推最小二乘法的多步时序差分学习算法（RLS－加（λ））。证明了在满

【作者】

：

陈学松杨宜民

【机构】

：

广东工业大学应用数学学院,广东工业大学自动化学院

【出处】

：

计算机工程与应用

【发表日期】

：

2010年8期

【关键词】

：

强化学习时序差分最小二乘收敛 RLS—TD(λ)算法 reinforcement learning temporal difference Recur

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差，提出了基于递推最小二乘法的多步时序差分学习算法（RLS－加（λ））。证明了在满足一定条件下，该算法的权值将以概率1收敛到唯一解，并且得出和证明了值函数估计值的误差应满足的关系式。迷宫实验表明，与RLS-TD（0）算法相比，该算法能加快学习过程的收敛，与传统的TD（λ）算法相比，该算法减少了值函数估计误差，从而提高了精度。

其他文献

农用土地环境质量的全要素整合评价

把影响农用土地环境质量的所有环境要素综合起来,分解量化指标,重建评价体系,提出宏观指标分等、微观指标定级的新观点,并就县市级农用土地环境质量进行全要素整合评价和等级

期刊

农用土地全要素整合评价宏观指标微观指标分等定级agricultural land all factors evaluation integrated

老子思想与和谐图书馆建设

基于老子提出的和谐观，阐述了和谐图书馆建设的关键要素，提出了和谐图书馆实现的根本，即：以人为本。

期刊

老子《道德经》和谐图书馆

一株高产灵菌红素粘质沙雷氏菌的筛选与鉴定

通过筛选自然生境中的产色素菌株,从淡水鱼体中分离得到一株高产红色色素的Sm-128菌株.经形态观察、生理生化实验和16S rDNA基因序列分析,鉴定Sm-128菌株为粘质沙雷氏菌（Serra

期刊