一种二阶TD Error快速Q(λ)算法

来源 :第四届中国Agent理论与应用学术会议 | 被引量 : 0次 | 上传用户：yueyinxiangzhu

【摘要】

：

　　Q(λ)学习算法是将值迭代与随机逼近的思想相结合，一种基于模型无关的多步离策略强化学习算法。针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题，从TD Error 的角度

【作者】

：

傅启明[1]刘全[2]孙洪坤[1]高龙[1]李瑾[1]王辉[1]

【机构】

：

苏州大学计算机科学与技术学院江苏苏州 215006

【出处】

：

第四届中国Agent理论与应用学术会议

【发表日期】

：

2012年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　Q(λ)学习算法是将值迭代与随机逼近的思想相结合，一种基于模型无关的多步离策略强化学习算法。针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题，从TD Error 的角度出发，给出n 阶TD Error 的概念，并将n 阶TD Error用于经典的Q(λ)学习算法，提出一种二阶TD Error 快速Q(λ)学习算法——SOE ？ FQ(λ)。该算法利用二阶TD Error修正Q 值函数，并通过资格迹将TD Error 传播至整个状态动作空间，加快算法的收敛速度。在此基础之上，分析算法的收敛性及收敛效率，在仅考虑一步更新的情况下，算法所要执行的迭代次数T 主要指数依赖于1 11？γ ε 、。将SOE ？ FQ(λ)算法用于Random Walk 和Mountain Car 问题，实验结果表明，算法具有较快的收敛速度和较好的收敛精度。

其他文献

给文本解读以健康的支点

【摘要】教师作为学生学习的引领着，就像是一位登山的向导，只有沿着正确的道路走，才能够离既定的目标越来越近。文本解读从某种意义来说，就是教学的风向标，把握好文本解读的立足点，给文本解读以健康的支点，我们的教学工作才能够走得更远，更健康！　　【关键词】文本解读；立足点；儿童立场；本质意义　　课改以来，强调多元的文本解读似乎给老师突然放开了一条宽阔的大路，然而面对着这样的一条路子，很多老师有点晕眩，不

期刊

文本解读立足点儿童立场本质意义

应用丙硫咪唑定期全体服药控制儿童蛲虫感染的进一步研究和推广

浙江省幼儿园儿童感染蛲虫十分普遍,为了找出有效而简便可行的防治方法,我们自1986年起对杭州市5个日托幼儿园儿童进行了防治方法的研究,得出丙硫咪唑定期全体服药三次的化

期刊

儿童蛲虫感染丙硫咪唑幼儿园儿童防治方法透明胶纸症状体征检查人数咪哩幼儿园环境感染人数

一起城市水型伤寒暴发的流行病学调查

1986年6～10月,盐城市区发生一起伤寒暴发,发病607例,罹患率高达289.2/10万。发病主要在人口稠密、自来水供应集中的市区。四个主要街道罹患率分别高达474.61/10万、362.68/10

期刊

罹患率流行病学调查发病年龄水型自来水供应城郊村人口稠密发病人群隐性感染者集中式供水

智能体博弈安全理论及其应用

　　博弈论(game theory)，有时也称为对策论，主要研究公式化了的激励结构间的相互作用，是研究具有斗争或竞争性质现象的数学理论和方法。在多智能体行为中，参加竞争的各方各自具

会议

全VXI结构多信道可搬移监测测向系统

本期封面刊登的全VXI结构多信道可搬移监测测向系统,是北京晨光汇龙电子科技发展有限公司充分利用北京地区科技力量密集优势,同清华大学、北京工业大学、部队研究机构等通力

期刊

多信道测向系统VXI测向无线电监测接收机电子地图最佳平台多信道接收机电子科技发展

柿树嫁接的最佳时期

柿树含单宁酸,易氧化形成隔离层,嫁接苗木较其他果树难以成活。同时在嫁接繁育苗木时除对技术(嫁接动作要迅速)和立地条件要求严格外,嫁接时期最为关键。我们经过一年不同时

期刊

柿树嫁接时期嫁接繁育嫁接试验立地条件隔离层嫁接时间蜡封接芽芽片

桃李齐相会,精英展雄风——记太平洋安泰人寿“2003年度教师节荣誉颁奖会”

2003年9月10日,太平洋安泰人寿保险有限公司“2003年度教师节荣誉颁奖会”在上海莘庄滑雪场的会厅内隆重举行。公司教育训练部、市场营销部培训中心的同仁及90多名外勤讲师

期刊

颁奖会执行副总经理市场营销部训练部维明培训中心保险知识基础班资格考试宋凯

甜椒青枯病及其防治

露地栽培或大棚栽培的甜椒，常见不明原因的凋萎死亡，尤以雨后天晴多发，危害严重。此病属茄科作物“青枯病”。1．症状甜椒整个生育期都能发病，而以花果期发病最重。病株最初叶片萎

期刊

青枯病病株残体单孢病株根泼浇病穴土壤潮湿茄科作物花果期横切口

基于Voronoi图的定性路径推理

　　动态空间知识表示与推理研究是定性空间推理研究的重要内容。基于Voronoi图及其动态变化，提出一个新的运动路径定性表示与推理方法。首先，基于Voronoi图空间邻近关系定义Vo

会议

体素内无序运动MRI评价扩散与灌注鉴别诊断良性与恶性唾液腺肿瘤

摘要目的前瞻性评价体素内无序运动(IVIM)参数(微血管内容量分数f;纯扩散系数D;与灌注相关无序微循环D*)对良性与恶性唾液腺肿瘤的鉴别。材料与方法此项前瞻性研究由学院审查

期刊

唾液腺肿瘤MRI体素鉴别诊断扩散系数知情同意多形摘要多形性腺瘤扩散加权

一种二阶TD Error快速Q(λ)算法

与本文相关的学术论文