基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

来源 :通信学报 | 被引量 : 12次 | 上传用户：hacker888888

【摘要】

：

针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基函数(RBF)网络的优良性能及存在的问题,提出利用自适应归一化RBF(ANRBF)网络作为势函数来塑造奖赏。基于ANRBF网络提出了梯度下降(GD)版的强化学习算法——ANRBF-G

【作者】

：

肖飞刘全傅启明孙洪坤高龙

【机构】

：

苏州大学计算机科学与技术学院,吉林大学符号计算与知识工程教育部重点实验室

【出处】

：

通信学报

【发表日期】

：

2013年01期

【关键词】

：

强化学习 Sarsa(λ) 梯度下降势函数塑造奖赏 reinforcement learning Sarsa（λ） gradient descent pot

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

漫谈正五角星的画法

19世纪末,英国数学游戏大师杜登尼写了一本书《520个趣味数学难题》,其中有这样一道题:16棵树,栽成15行,每行栽4棵,如何栽?乍看此题似乎无解,其实不然.杜登尼给出了一个美丽

期刊

正五边形

重症监护室深静脉导管相关性血栓80分析

目的探讨重症监护室发生深静脉导管相关性血栓的诊断及治疗策略。方法以我院重症监护室于2013年2月~2016年2月出现的80例深静脉导管相关性血栓患者为研究对象,回顾性分析其深

期刊

深静脉导管血栓重症监护室

基于预测的机会式网络编码

针对理论网络编码在实际应用上的缺陷,以及现有机会式网络编码完全依赖于消息偷听导致应用场合的局限性,以完全不同于网络编码优化问题的思路,提出了基于预测的机会式网络编码的方法。其主要思想是:基于网络流量的自相似性,利用EMD(经验模式分解)和ARMA(自回归滑动平均)预测下一个报文的到达时间,综合计算编码时间、为了编码而等待的时间、传输时间等要素,从而决定是否编码。推导出了网络编码在不同情况下要实现吞

期刊

机会式网络编码预测吞吐量最长等待时间经验模式分解opportunistic network coding prediction throughput

立足能力培养促进创新学习

创新学习是一种体现活思维、展示高素质的创造性的智能活动，它不是仅具备一两种能力就能学有所成、习有所得的。只有不断自我磨练，追求能力的全面完善和提高，才能够卓有成效地进

期刊

能力培养创新学习Ability Raise Innovation study

基于Fluent角型喷嘴内部空化行为的数值模拟

利用Fluent流体计算软件对角型喷嘴内部的空化流场进行了数值模拟,得到了喷嘴内部的压力、气相生成速率和汽含率分布场,并对三种扩张角喷嘴内的流场进行了比较分析.结果表明：

期刊

空化角型喷嘴扩张角数值模拟汽含率

高龄患者腹部手术的围手术期护理

目的探讨高龄患者腹部手术的术前、术后护理措施,提高高龄患者腹部手术的质量。方法对2003—2005年870例年龄超过65岁腹部手术患者的护理方法进行分析总结。结果患者均能安全

期刊

高龄患者腹部手术围手术期护理

教师的美德、职业道德及其教育作用

传统美德和良好的职业道德是一个好教师必须具备的前提备件，因为教育工作是道德事业，不仅具有道德的目的。而且必须以道德的方式进行。合乎道德要求的教育才是真正的教育，舍乎道

期刊

职业道德教师美德教育作用The occupational ethics Teacher moral excellence Education functi

艾滋病临床误诊2例分析

由于艾滋病发病初期无特异性症状和体征，目前又没有哪一所医院将艾滋病抗体筛查立为常规检查项目，因此艾滋病的临床误诊率仍很高，特别是在基层医院。现将本院2005-2006年误诊的2

期刊

艾滋病误诊肺结核

数码相机在近代物理实验中的应用

利用数码相机的优点,分别对近代物理实验中的光谱拍摄与分析和密立根油滴实验做了相应的改进。实践表明,数码相机的应用不仅使实验操作更加的方便快捷,还能进一步提高教学质

期刊

数码相机近代物理实验光谱拍摄密立根油滴实验digital cameramodern physics experimentspectrum shootin

当归芍药散对血管性痴呆大鼠行为学的影响及其机制探究

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

学位

血管性痴呆当归芍药散神经元凋亡氧化应激反应Aβ转运

基于自适应势函数塑造奖赏机制的梯度下降Sarsa（λ）算法

与本文相关的学术论文