一种二阶TD Error快速Q(λ)算法

来源 :第四届中国Agent理论与应用学术会议 | 被引量 : 0次 | 上传用户:yueyinxiangzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  Q(λ)学习算法是将值迭代与随机逼近的思想相结合,一种基于模型无关的多步离策略强化学习算法。针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error 的角度出发,给出n 阶TD Error 的概念,并将n 阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error 快速Q(λ)学习算法——SOE ? FQ(λ)。该算法利用二阶TD Error修正Q 值函数,并通过资格迹将TD Error 传播至整个状态动作空间,加快算法的收敛速度。在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T 主要指数依赖于1 11?γ ε 、。将SOE ? FQ(λ)算法用于Random Walk 和Mountain Car 问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度。
其他文献
【摘 要】教师作为学生学习的引领着,就像是一位登山的向导,只有沿着正确的道路走,才能够离既定的目标越来越近。文本解读从某种意义来说,就是教学的风向标,把握好文本解读的立足点,给文本解读以健康的支点,我们的教学工作才能够走得更远,更健康!  【关键词】文本解读;立足点;儿童立场;本质意义  课改以来,强调多元的文本解读似乎给老师突然放开了一条宽阔的大路,然而面对着这样的一条路子,很多老师有点晕眩,不
浙江省幼儿园儿童感染蛲虫十分普遍,为了找出有效而简便可行的防治方法,我们自1986年起对杭州市5个日托幼儿园儿童进行了防治方法的研究,得出丙硫咪唑定期全体服药三次的化
1986年6~10月,盐城市区发生一起伤寒暴发,发病607例,罹患率高达289.2/10万。发病主要在人口稠密、自来水供应集中的市区。四个主要街道罹患率分别高达474.61/10万、362.68/10
  博弈论(game theory),有时也称为对策论,主要研究公式化了的激励结构间的相互作用,是研究具有斗争或竞争性质现象的数学理论和方法。在多智能体行为中,参加竞争的各方各自具
会议
本期封面刊登的全VXI结构多信道可搬移监测测向系统,是北京晨光汇龙电子科技发展有限公司充分利用北京地区科技力量密集优势,同清华大学、北京工业大学、部队研究机构等通力
柿树含单宁酸,易氧化形成隔离层,嫁接苗木较其他果树难以成活。同时在嫁接繁育苗木时除对技术(嫁接动作要迅速)和立地条件要求严格外,嫁接时期最为关键。我们经过一年不同时
2003年9月10日,太平洋安泰人寿保险有限公司“2003年度教师节荣誉颁奖会”在上海莘庄滑雪场的会厅内隆重举行。公司教育训练部、市场营销部培训中心的同仁及90多名外勤讲师
露地栽培或大棚栽培的甜椒,常见不明原因的凋萎死亡,尤以雨后天晴多发,危害严重。此病属茄科作物“青枯病”。1.症状甜椒整个生育期都能发病,而以花果期发病最重。病株最初叶片萎
  动态空间知识表示与推理研究是定性空间推理研究的重要内容。基于Voronoi图及其动态变化,提出一个新的运动路径定性表示与推理方法。首先,基于Voronoi图空间邻近关系定义Vo
会议
摘要目的前瞻性评价体素内无序运动(IVIM)参数(微血管内容量分数f;纯扩散系数D;与灌注相关无序微循环D*)对良性与恶性唾液腺肿瘤的鉴别。材料与方法此项前瞻性研究由学院审查