一种基于线性函数逼近的离策略Q(λ)算法

来源 :计算机学报 | 被引量 : 0次 | 上传用户:chenshuae5b
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(A)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(A)算法.该算法通过引入重要性关联因子,在迭代次数逐步增长的过程中,使得在策略与离策略相统一,确保算法的收敛性.同时在保证在策略与离策略的样本数据一致性的前提下,对算法的收敛性给予理论证明.将文中提出的算法用于Baird反例、Mountain—Car及RandomWalk仿真平台,实验结果表明,该算法与传统的基于函数
其他文献
语文教学提倡“自主、合作、探究”的学习方式,“探究”即“发现”的过程,阅读“发现”是可持续阅读的动力.阅读“发现”依据学生的阅读习惯和心理,从“发现”语言面、语言点
微灌技术在我国的发展情况、自身特点、优势和各类微灌器材在节水灌溉中的重要地位及发展方向。
目的:分析FACT-H&N第4版用于口腔鳞癌患者生存质量(qualityoflife,QOL)测量的效果。方法:采用FACT-H&N对97例确诊为口腔鳞癌的连续患者进行QOL的测量,分析量表的信度、效度和反映度
网络技术的普及是科技发展的结果,将其融入到高校教育中也是社会发展的必然结果,可以将高校的教学工作进行更加科学的处理,提升高校各项事物的处理质量。因此高校网络思想政
目的了解川北医学院大一新生的焦虑抑郁现状及其影响因素。方法采取随机整群抽样的方法,利用焦虑自评量表(Self-Rating Anxiety Scale,SAS)、抑郁自评量表(Self-Rating Depre
民初李涵秋的社会小说中有大量地域性民俗文化的描述。通过对其作品的研究发现,李涵秋以揭露迷信的荒谬性突出俗信的社会人生意义而展示民俗现象,从而昭示了时代进步思潮影响下
随着生活品质的改善,人们对肉质的要求不断的提高,猪肉脂肪沉积逐渐成为研究的热点。就类胰岛素样生长因子2(IGF-2)和心脏型脂肪酸结合蛋白(H-FABP)基因与猪脂肪沉积相关方面做一简
自1997~2000年使用有限手术内固定结合外固定支架治疗Pilon骨折25例,取得满意疗效.报告如下.
目的:观察针刺配合中药内服治疗慢性支气管炎急性期(痰热郁肺证)的疗效。方法:将169例入选病人随机分为治疗组和对照组,对照组予以西医内科抗感染、止咳、祛痰、平喘、对症支
利用CFD软件Star-ccm+对某型号防爆柴油机射流干式排气管的流动过程进行数值模拟,得到了射流干式排气管内部流场的压力、速度,以及温度分布云图。分析了在一定工况下,射流干式排