基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法

来源 :通信学报 | 被引量 : 12次 | 上传用户:hacker888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基函数(RBF)网络的优良性能及存在的问题,提出利用自适应归一化RBF(ANRBF)网络作为势函数来塑造奖赏。基于ANRBF网络提出了梯度下降(GD)版的强化学习算法——ANRBF-GD-Sarsa(λ)。从理论上分析了ANRBF-GD-Sarsa(λ)算法的收敛性,并通过实验验证了AN
其他文献
19世纪末,英国数学游戏大师杜登尼写了一本书《520个趣味数学难题》,其中有这样一道题:16棵树,栽成15行,每行栽4棵,如何栽?乍看此题似乎无解,其实不然.杜登尼给出了一个美丽
期刊
目的探讨重症监护室发生深静脉导管相关性血栓的诊断及治疗策略。方法以我院重症监护室于2013年2月~2016年2月出现的80例深静脉导管相关性血栓患者为研究对象,回顾性分析其深
针对理论网络编码在实际应用上的缺陷,以及现有机会式网络编码完全依赖于消息偷听导致应用场合的局限性,以完全不同于网络编码优化问题的思路,提出了基于预测的机会式网络编码的方法。其主要思想是:基于网络流量的自相似性,利用EMD(经验模式分解)和ARMA(自回归滑动平均)预测下一个报文的到达时间,综合计算编码时间、为了编码而等待的时间、传输时间等要素,从而决定是否编码。推导出了网络编码在不同情况下要实现吞
创新学习是一种体现活思维、展示高素质的创造性的智能活动,它不是仅具备一两种能力就能学有所成、习有所得的。只有不断自我磨练,追求能力的全面完善和提高,才能够卓有成效地进
利用Fluent流体计算软件对角型喷嘴内部的空化流场进行了数值模拟,得到了喷嘴内部的压力、气相生成速率和汽含率分布场,并对三种扩张角喷嘴内的流场进行了比较分析.结果表明:
目的探讨高龄患者腹部手术的术前、术后护理措施,提高高龄患者腹部手术的质量。方法对2003—2005年870例年龄超过65岁腹部手术患者的护理方法进行分析总结。结果患者均能安全
传统美德和良好的职业道德是一个好教师必须具备的前提备件,因为教育工作是道德事业,不仅具有道德的目的。而且必须以道德的方式进行。合乎道德要求的教育才是真正的教育,舍乎道
由于艾滋病发病初期无特异性症状和体征,目前又没有哪一所医院将艾滋病抗体筛查立为常规检查项目,因此艾滋病的临床误诊率仍很高,特别是在基层医院。现将本院2005-2006年误诊的2
利用数码相机的优点,分别对近代物理实验中的光谱拍摄与分析和密立根油滴实验做了相应的改进。实践表明,数码相机的应用不仅使实验操作更加的方便快捷,还能进一步提高教学质
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技