【摘 要】
:
智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分
论文部分内容阅读
智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般情况下,智能体必须记住其所有的值函数的值,当状态空间非常大时,这种记忆的量是大得惊人的.为了解决这个问题,给出了一种遗忘算法,这种算法把心理学的遗忘准则引入到了激励学习之中.利用遗忘算法,可以解决智能体在大状态空间中的激励学习问题.
其他文献
今年5月,台湾外贸协会设计推广中心举办了一场“绿色设计系列研讨会”,为“绿色商品”时代的到来进行一场全面深入的探讨,针对企业界应如何在产品设计或包装上制订相应的对策
“近日有媒体报道韩国农心公司的6款方便面调料包在韩国被检出含有‘苯并芘’,质检总局对此高度重视,立即与韩国有关部门进行了沟通,要求韩方就此问题向中方做出声明,切实保障中
介绍了一个工业器件上字符识别和获取系统。在字符提取阶段,给出了两种字符的提取方法以及互补Ostu二值化方法。在识别阶段,对第一类字符利用TM矩和仿射不变矩提取特征并且组合成特征向量,然后利用交叉相关来识别;对第二类字符利用模板匹配法,基于Hu不变矩和TM矩的交叉相关分别得到各自的识别结果,然后采用投票原则来作出最后的判决。实验结果表明提出的方案是可行的和合理的。
学习方法系列讲座第十二讲学会记忆和复习的方法之二──复习与应试陈红兵反复复习是达到记忆的必要手段。要真正记住、记牢所学的知识,只靠一次学习是无法达到的,只有不断复习
小学阅读教学的“一、三、三、三”模式山东省烟台市福山区教研室朱学思,邢熙平阅读教学是小学语文教学的基本环节,它对完成小学语文教学任务占据着重要的位置。因此,研究、探索
类比与假说曲阜师范大学物理系李新乡一类比1.类比的意义类比是根据两个(或两类)对象之间在某些属性上的相同或相似,类推出它们的其它属性也可能相同或相似的一种逻辑方法,其形式结
通过建立广义数学表达式的文法规则以及分析程序,实现了基于专家系统的公式识别器。所述的软件适用于带有各种专用数学符号以及上下标的数学公式。
美国科研人员发布的一项研究报告显示,有肥胖并发症的青少年学业表现逊于正常同龄人。纽约入学医学院身心医学教授安东尼奥·肯维特及其研究小组以常规考试、衄液检验和脑
近几年可信计算平台发展迅速,但基于可信计算平台上的策略控制系统的研究相对落后,现有的一些策略控制系统无法满足新式的可信计算平台的需要。经过对可信计算平台关于策略控制
世界卫生组织确认,新发现的冠状病毒不易在人与人之间传播。迄今已经确诊两例感染病例,其中一名沙特阿拉伯人今年早些时候死亡,一名卡塔尔人正在英国就医。