一类值函数激励学习的遗忘算法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:whywhywhy_why
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大状态空间值函数的激励学习是当今国际激励学习领域的一个热点和难点问题.将记忆心理学中有关遗忘的基本原理引入值函数的激励学习,形成了一类适合于值函数激励学习的遗忘算法.首先简要介绍了解决马尔可夫决策问题的基本概念,比较了离策略和在策略激励学习算法的差别,概述了标准的SARSA(λ)算法.在分析了人类记忆和遗忘的一些特征后,提出了一个智能体遗忘准则,进而将SARSA(λ)算法改进为具有遗忘功能的Forget-SARSA(λ)算法,最后给出了实验结果.
其他文献
在知识经济时代,如何构建新时期的激励机制以激发员工的工作积极性和创造力,是理论界和实际工作部门都极为关注的问题.文章探讨了在知识经济时代针对知识型员工如何构建激励
引进人才,培养人才,是医疗机构发展壮大的必要条件。对中医医院来说,做好优秀人才的引进和培养,建立一支合理的人才梯队,是一项长期的、稳定的、可持续发展的重要战略。医疗