【摘 要】
:
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化
【机 构】
:
南京大学软件新技术国家重点实验室,江苏省智能卡工程技术研究中心
论文部分内容阅读
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法——G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问
其他文献
20世纪澳大利亚女作家考琳.麦卡洛的小说《荆棘鸟》自1977年问世以后,不仅走红美国,而且迅速成为风靡全球的"国际畅销小说",被誉为澳大利亚的《飘》,是整个80年代最畅销书之
微博是近年在中国互联网界新兴的颇具用户规模的Web 2.0应用,本文基于认知的视角对微博的学习问题进行探究,分析微博学习的特征,分析微博学习发生的过程。研究结果表明,当前
师范生实习过程中存在焦虑情绪,会干扰着课堂教学及班主任工作,是影响师范生实习效果不容忽视的重要心理因素。本文据师范生实习焦虑的表现,分析了师范生实习焦虑的主要形成
旨在检验我国开放式股票基金市场是否存在季度橱窗粉饰现象,以及揭示基金经理特征和基金自身特征对于橱窗粉饰程度的影响。通过OLS回归,证实在季末存在着显著的窗饰现象。工
飞艇展放导引绳的基本原理是利用飞艇展放一根引绳从线路高空飞过,以供线路施工人员牵引后面的钢丝绳的技术,其方法与其他放线方法相比具有安全、高效、环保、成本低等优势,
发展新能源对于解决当今世界严重的环境污染问题和资源枯竭问题具有重要意义,被认为是继蒸汽机化、电气化、信息化之后改变全球发展的第四次技术革命。本文介绍了核能、太阳
<正>《语文课程标准》提出:九年义务教育阶段的语文课程必须面向全体学生,使学生获得基本的语文素养。语文课程应培养学生对祖国语文的热爱之情,指导学生正确地理解和运用祖
人事档案是记载干部职工个人参加各种学习教育和社会活动轨迹的重要信息资源,也是基层事业单位全面了解、合理调整和充分使用人才的基础工作。但是随着近年来各地基层事业单
土地是人类赖以生存的基础,现阶段土地数量固定而人口在不断增长,所以也不断增加对土地的需要,因此如何在土地有限的情况下,保证人们生活过程中对土地的需求,同时对人类生产
目的总结老年髋部骨折治疗临床流程的应用效果。方法对2003年9月-2012年8月收治的老年髋部骨折患者进行随访。老年髋部骨折临床流程于2007年1月开始应用。比较应用临床流程前