多步 R 学习算法(英文)

来源 :北京理工大学学报：英文版 | 被引量 : 0次 | 上传用户：bluebell228

【摘要】

：

目的　讨论平均准则下控制马氏链的强化学习算法，在事先未知状态转移矩阵及报酬函数的条件下，通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略．方法　结合平均报

【作者】

：

胡光华吴沧浦

【机构】

：

北京理工大学自动控制系!北京100081

【出处】

：

北京理工大学学报：英文版

【发表日期】

：

1999年3期

【关键词】

：

强化学习平均报酬 R学习 MARKOV决策过程即时差分学习 reinforcement learning average reward Rlearnin

【基金项目】

：

国家自然科学基金

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目的　讨论平均准则下控制马氏链的强化学习算法，在事先未知状态转移矩阵及报酬函数的条件下，通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略．方法　结合平均报酬问题的一步学习算法和即时差分学习算法，提出了一种多步强化学习算法——— Ｒ（ λ）学习算法．结果与结论　新算法使得已有的Ｒ学习算法成为其λ＝０时的特例．同时它也是折扣报酬Ｑ（λ）学习算法到平均报酬问题的自然推广．仿真结果表明λ取中间值的Ｒ（ λ）学习算法明显优于一步的Ｒ学习算法．

其他文献

屋面接缝防水技术

本文通过对屋面接缝各种不利因素形成的最大位移和日有效温差形成的循环往复变化位移的分析、研究，较系统地阐述了屋面缝密封防水理论、卷材离防水理论和涂膜防水理论以及长期

期刊

防水工程屋面接缝

关于脉冲中立型微分方程正解的存在性(英文)

目的　研究脉冲中立型微分方程正解的存在性．方法　应用Ｂａｎａｃｈ压缩原理研究正解的存在性．结果与结论　获得了脉冲中立型微分方程正解的存在性结果．

期刊

脉冲中立型微分方程正解Banach压缩原理impulsive neutral differential equation positive soluti

风标式导引头失调角数值计算

以三维Navier-Stokes方程为基础，用数值模拟的方法对激光制导炸弹风标式导引头(风标头)失调角进行了研究，得到了与实验基本一致的风标头失调角随马赫数Ma及攻角α的变化规律.结

期刊

激光制导炸弹风标式导引头失调角数值模拟

增强氯化聚乙烯橡胶卷材应用情况的调查

本文在调查研究的基础上，论述了增强氯化聚乙烯橡胶卷材的生产，使用以及防水层渗漏情况，分析了渗漏产生的原因并提出了解决该卷材防水工程渗漏的施工工艺措施以及节点构造作法。

期刊

氯化聚乙烯橡胶卷材防水工程

射流器轻型井点降水工法

此工法是轻型井点降水的改进，本文介绍其原理、适用范围、经济效益及施工实例。

期刊

轻型井点降水射流器施工法

圆柱坐标系下的网格波阻抗及其应用(英文)

从圆柱坐标系下麦克斯韦方程的时域有限差分式和特征解出发 ,引入了二维和三维圆柱坐标系下网格波阻抗 (MWI) .结合完全匹配吸收层 (PML)概念 ,推导出了二维圆柱坐标系下的MW

期刊

网格波阻抗圆柱坐标系时域有限差分完全匹配层吸收边界条件mesh wave impedance cylindrical coordinates fi

小口径挤密桩在危房地基加固中的应用

本文结合工程实践介绍用小口径挤密桩加固危房地基的原理和方法。

期刊

危房地基处理小口径挤密桩

吉林省地市区域农村居民消费特征研究

吉林省的消费率明显高于全国平均水平及邻省,而吉林省的农村居民消费所占比重却持续降低。运用空间自相关检验模型对吉林省地市区域的农村居民收入和消费价格指数的空间依赖

期刊

吉林省地市区域农村居民消费特征研究Jilin province region consumption of rural residents cha

电动汽车储能电池组管理系统的研制(英文)

研制一种电动汽车储能电池组管理系统 ,该系统可预测电池组剩余电量和车辆剩余里程 ,判断电池是否需要充电、是否损坏或是否因老化而需要更换 .系统能显示电池组总电压、单块

期刊

电动汽车剩余电量故障诊断铅酸蓄电池electric vehicle (EV) residual capacity trouble diagnosis

采用一种新型神经网络的动态系统辨识与控制(英文)

目的　研究动态系统的神经网络辨识与控制问题．方法　为了减小网络的固有逼近误差，提出一种新型的神经网络模型，利用动态误差反馈来修正网络输入．结果　得到了由新型网络和稳定

期刊

非线性系统神经网络自适应控制系统辨识nonlinear systems neural networks adaptive control syst

多步 R 学习算法(英文)

与本文相关的学术论文