平均奖赏强化学习算法研究

来源 :计算机学报 | 被引量 : 0次 | 上传用户：aman25826882

【摘要】

：

顺序决策问题常用马尔可夫决策过程（MDP）建模．当决策行为执行从时刻点扩展到连续时间上时，经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型（SMDP）．当系统参数未知时，强化

【作者】

：

高阳周如益王皓曹志新

【机构】

：

南京大学软件新技术国家重点实验室,江苏省智能卡工程技术研究中心

【出处】

：

计算机学报

【发表日期】

：

2007年8期

【关键词】

：

平均奖赏强化学习性能势 G-学习马尔可夫决策过程半马尔可夫决策过程

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

顺序决策问题常用马尔可夫决策过程（MDP）建模．当决策行为执行从时刻点扩展到连续时间上时，经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型（SMDP）．当系统参数未知时，强化学习技术被用来学习最优策略．文中基于性能势理论，证明了平均奖赏强化学习的逼近定理．通过逼近相对参考状态的性能势值函数，研究一个新的平均奖赏强化学习算法——G-学习算法．G-学习算法既可以用于MDP，也可以用于SMDP．不同于经典的R-学习算法，G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数．在顾客访问

其他文献

浅析《荆棘鸟》中梅吉的爱情自主意识

20世纪澳大利亚女作家考琳.麦卡洛的小说《荆棘鸟》自1977年问世以后,不仅走红美国,而且迅速成为风靡全球的"国际畅销小说",被誉为澳大利亚的《飘》,是整个80年代最畅销书之

期刊

荆棘鸟爱情自主意识

微博的学习特征研究——基于认知的视角

微博是近年在中国互联网界新兴的颇具用户规模的Web 2.0应用,本文基于认知的视角对微博的学习问题进行探究,分析微博学习的特征,分析微博学习发生的过程。研究结果表明,当前

期刊

微博学习特征

师范生实习焦虑的成因及对策研究

师范生实习过程中存在焦虑情绪,会干扰着课堂教学及班主任工作,是影响师范生实习效果不容忽视的重要心理因素。本文据师范生实习焦虑的表现,分析了师范生实习焦虑的主要形成

期刊

师范生实习焦虑成因对策

基金橱窗粉饰行为及其影响因素研究——来自中国开放式股票基金的证据

旨在检验我国开放式股票基金市场是否存在季度橱窗粉饰现象,以及揭示基金经理特征和基金自身特征对于橱窗粉饰程度的影响。通过OLS回归,证实在季末存在着显著的窗饰现象。工

期刊

证券投资基金橱窗粉饰基金经理

330kV送电线路飞艇展放导引绳施工技术经济分析

飞艇展放导引绳的基本原理是利用飞艇展放一根引绳从线路高空飞过,以供线路施工人员牵引后面的钢丝绳的技术,其方法与其他放线方法相比具有安全、高效、环保、成本低等优势,

期刊

导引绳线路施工施工工期工器具张力机技术经济分析

新能源发展展望

发展新能源对于解决当今世界严重的环境污染问题和资源枯竭问题具有重要意义,被认为是继蒸汽机化、电气化、信息化之后改变全球发展的第四次技术革命。本文介绍了核能、太阳

期刊

新能源气候变化政策实施发电

在低年级写话教学中的几点体会

<正>《语文课程标准》提出:九年义务教育阶段的语文课程必须面向全体学生,使学生获得基本的语文素养。语文课程应培养学生对祖国语文的热爱之情,指导学生正确地理解和运用祖

期刊

写话教学低年级几点体会写话训练

浅析基层事业单位人事档案管理工作存在的问题及对策

人事档案是记载干部职工个人参加各种学习教育和社会活动轨迹的重要信息资源,也是基层事业单位全面了解、合理调整和充分使用人才的基础工作。但是随着近年来各地基层事业单

期刊

事业单位人事档案管理问题对策

资源型城市土地利用与可持续发展研究

土地是人类赖以生存的基础,现阶段土地数量固定而人口在不断增长,所以也不断增加对土地的需要,因此如何在土地有限的情况下,保证人们生活过程中对土地的需求,同时对人类生产

学位

资源型城市土地利用可持续发展攀枝花市

老年髋部骨折治疗的临床流程效果分析

目的总结老年髋部骨折治疗临床流程的应用效果。方法对2003年9月-2012年8月收治的老年髋部骨折患者进行随访。老年髋部骨折临床流程于2007年1月开始应用。比较应用临床流程前

期刊

髋部骨折临床流程治疗结果老年

平均奖赏强化学习算法研究

其他学术论文