基于有效跟踪的平均渐进瞬时差分学习遗忘算法

来源 :长沙电力学院学报：自然科学版 | 被引量 : 0次 | 上传用户：ouwenliao

【摘要】

：

智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分

【作者】

：

殷苌茗王汉兴陈焕文谢丽娟

【机构】

：

上海大学,上海大学,长沙理工大学

【出处】

：

长沙电力学院学报：自然科学版

【发表日期】

：

2003年4期

【关键词】

：

遗忘算法激励学习 MARKOV决策过程 ATD(λ) 有效跟踪平均渐进瞬时差分学习心理学 forgetting algorithms reinforce

【基金项目】

：

国家自然科学基金

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般情况下,智能体必须记住其所有的值函数的值,当状态空间非常大时,这种记忆的量是大得惊人的.为了解决这个问题,给出了一种遗忘算法,这种算法把心理学的遗忘准则引入到了激励学习之中.利用遗忘算法,可以解决智能体在大状态空间中的激励学习问题.

其他文献

台贸协推出绿色设计新理念

今年5月,台湾外贸协会设计推广中心举办了一场“绿色设计系列研讨会”,为“绿色商品”时代的到来进行一场全面深入的探讨,针对企业界应如何在产品设计或包装上制订相应的对策

期刊

绿色设计包装材料新理念包装废弃物产品设计系列研讨绿色商品消费者鼓励消费减量化

质检总局：要求召回6种含致癌物方便面

“近日有媒体报道韩国农心公司的6款方便面调料包在韩国被检出含有‘苯并芘’，质检总局对此高度重视，立即与韩国有关部门进行了沟通，要求韩方就此问题向中方做出声明，切实保障中

期刊

质检总局方便面致癌物召回媒体报道苯并芘韩国消费者

工业器件上的字符提取及识别

介绍了一个工业器件上字符识别和获取系统。在字符提取阶段,给出了两种字符的提取方法以及互补Ostu二值化方法。在识别阶段,对第一类字符利用TM矩和仿射不变矩提取特征并且组合成特征向量,然后利用交叉相关来识别;对第二类字符利用模板匹配法,基于Hu不变矩和TM矩的交叉相关分别得到各自的识别结果,然后采用投票原则来作出最后的判决。实验结果表明提出的方案是可行的和合理的。

期刊

字符提取字符识别矩投票原则Character extraction Character recognition Moments Voting pr

学习方法系列讲座　第十二讲　学会记忆和复习的方法之二──复习与应试

学习方法系列讲座第十二讲学会记忆和复习的方法之二──复习与应试陈红兵反复复习是达到记忆的必要手段。要真正记住、记牢所学的知识，只靠一次学习是无法达到的，只有不断复习

期刊