多步 R 学习算法(英文)

来源 :北京理工大学学报:英文版 | 被引量 : 0次 | 上传用户:bluebell228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的 讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略. 方法 结合平均报酬问题的一步学习算法和即时差分学习算法,提出了一种多步强化学习算法——— R( λ) 学习算法. 结果与结论 新算法使得已有的 R 学习算法成为其λ= 0 时的特例. 同时它也是折扣报酬 Q(λ) 学习算法到平均报酬问题的自然推广. 仿真结果表明λ取中间值的 R( λ) 学习算法明显优于一步的 R 学习算法.
其他文献
本文通过对屋面接缝各种不利因素形成的最大位移和日有效温差形成的循环往复变化位移的分析、研究,较系统地阐述了屋面缝密封防水理论、卷材离防水理论和涂膜防水理论以及长期
目的 研究脉冲中立型微分方程正解的存在性. 方法 应用Banach 压缩原理研究正解的存在性. 结果与结论 获得了脉冲中立型微分方程正解的存在性结果.
以三维Navier-Stokes方程为基础,用数值模拟的方法对激光制导炸弹风标式导引头(风标头)失调角进行了研究,得到了与实验基本一致的风标头失调角随马赫数Ma及攻角α的变化规律.结
本文在调查研究的基础上,论述了增强氯化聚乙烯橡胶卷材的生产,使用以及防水层渗漏情况,分析了渗漏产生的原因并提出了解决该卷材防水工程渗漏的施工工艺措施以及节点构造作法。
此工法是轻型井点降水的改进,本文介绍其原理、适用范围、经济效益及施工实例。
从圆柱坐标系下麦克斯韦方程的时域有限差分式和特征解出发 ,引入了二维和三维圆柱坐标系下网格波阻抗 (MWI) .结合完全匹配吸收层 (PML)概念 ,推导出了二维圆柱坐标系下的MW
本文结合工程实践介绍用小口径挤密桩加固危房地基的原理和方法。
吉林省的消费率明显高于全国平均水平及邻省,而吉林省的农村居民消费所占比重却持续降低。运用空间自相关检验模型对吉林省地市区域的农村居民收入和消费价格指数的空间依赖
研制一种电动汽车储能电池组管理系统 ,该系统可预测电池组剩余电量和车辆剩余里程 ,判断电池是否需要充电、是否损坏或是否因老化而需要更换 .系统能显示电池组总电压、单块
目的 研究动态系统的神经网络辨识与控制问题. 方法 为了减小网络的固有逼近误差,提出一种新型的神经网络模型,利用动态误差反馈来修正网络输入. 结果 得到了由新型网络和稳定