一种基于线性函数逼近的离策略Q(λ)算法

来源 :计算机学报 | 被引量 : 0次 | 上传用户：chenshuae5b

【摘要】

：

将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点．针对传统的基于查询表及函数逼近的Q（A）学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题，提出一种基于线

【作者】

：

傅启明刘全王辉肖飞于俊李娇

【机构】

：

苏州大学计算机科学与技术学院,吉林大学符号计算与知识工程教育部重点实验室

【出处】

：

计算机学报

【发表日期】

：

2014年3期

【关键词】

：

强化学习函数逼近离策略 Q(λ)算法机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点．针对传统的基于查询表及函数逼近的Q（A）学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题，提出一种基于线性函数逼近的离策略Q（A）算法．该算法通过引入重要性关联因子，在迭代次数逐步增长的过程中，使得在策略与离策略相统一，确保算法的收敛性．同时在保证在策略与离策略的样本数据一致性的前提下，对算法的收敛性给予理论证明．将文中提出的算法用于Baird反例、Mountain—Car及RandomWalk仿真平台，实验结果表明，该算法与传统的基于函数

其他文献

阅读“发现”

语文教学提倡“自主、合作、探究”的学习方式,“探究”即“发现”的过程,阅读“发现”是可持续阅读的动力.阅读“发现”依据学生的阅读习惯和心理,从“发现”语言面、语言点

期刊

语文教学阅读发现语言

微灌技术在我国的应用

微灌技术在我国的发展情况、自身特点、优势和各类微灌器材在节水灌溉中的重要地位及发展方向。

期刊

微灌节水产品发展前景

FACT-H&N用于口腔鳞癌患者生存质量测量的效果评价

目的：分析FACT-H＆N第4版用于口腔鳞癌患者生存质量（qualityoflife,QOL）测量的效果。方法：采用FACT-H＆N对97例确诊为口腔鳞癌的连续患者进行QOL的测量,分析量表的信度、效度和反映度

期刊

生存质量口腔癌心理测量学特性FACT-H&N

互联网思维模式下高校网络思想政治教育的思考

网络技术的普及是科技发展的结果,将其融入到高校教育中也是社会发展的必然结果,可以将高校的教学工作进行更加科学的处理,提升高校各项事物的处理质量。因此高校网络思想政

期刊

高校互联网思维网络思想政治教育

川北医学院大一新生焦虑抑郁现状及其影响因素

目的了解川北医学院大一新生的焦虑抑郁现状及其影响因素。方法采取随机整群抽样的方法,利用焦虑自评量表(Self-Rating Anxiety Scale,SAS)、抑郁自评量表(Self-Rating Depre

期刊

医学新生焦虑抑郁影响因素

论李涵秋社会小说中的民俗文化与苦乐人生——以《广陵潮》为考察中心

民初李涵秋的社会小说中有大量地域性民俗文化的描述。通过对其作品的研究发现，李涵秋以揭露迷信的荒谬性突出俗信的社会人生意义而展示民俗现象，从而昭示了时代进步思潮影响下

期刊

李涵秋社会小说民俗文化苦乐人生

猪IGF-2和H-FABP基因在脂肪沉积方面的研究进展

随着生活品质的改善，人们对肉质的要求不断的提高，猪肉脂肪沉积逐渐成为研究的热点。就类胰岛素样生长因子2（IGF-2）和心脏型脂肪酸结合蛋白（H-FABP）基因与猪脂肪沉积相关方面做一简

期刊

猪脂肪沉积IGF2H-FABP

有限手术内固定结合外固定支架治疗Pilon骨折

自1997～2000年使用有限手术内固定结合外固定支架治疗Pilon骨折25例,取得满意疗效.报告如下.

期刊

手术内固定外固定支架治疗Pilon

针刺配合中药内服治疗慢性支气管炎急性期(痰热郁肺证)85例疗效观察

目的:观察针刺配合中药内服治疗慢性支气管炎急性期(痰热郁肺证)的疗效。方法:将169例入选病人随机分为治疗组和对照组,对照组予以西医内科抗感染、止咳、祛痰、平喘、对症支

期刊

针刺中药慢性支气管炎急性期

防爆柴油机射流干式排气管的数值分析

利用CFD软件Star-ccm＋对某型号防爆柴油机射流干式排气管的流动过程进行数值模拟，得到了射流干式排气管内部流场的压力、速度，以及温度分布云图。分析了在一定工况下，射流干式排

期刊

射流干式排气管数值分析防爆柴油机

一种基于线性函数逼近的离策略Q(λ)算法

与本文相关的学术论文