一个因素化SARSA(λ)激励学习算法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:longwayli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于状态的因素化表达,提出了一个新的SARSA(λ)激励学习算法.其基本思想是根据状态的特征得出状态相似性启发式,再根据该启发式对状态空间进行聚类,大大减少了状态空间搜索与计算的复杂度,因此比较适用于求解大状态空间的MDPs问题.
其他文献
北师大版二年级下册数学第98页有这么一道题:把一张正方形纸沿直线剪掉一个角后,剩下的部分是几边形?它有几个角?说说各是什么角。
纵观我们的教学,有时存在着学法指导不到位现象.我们必须深刻地认识这个问题.请看调查过的两个教学案例.
2010年3月,在河南省信阳市彭家湾乡某200头母猪场暴发断奶仔猪连续性死亡为主要特征的疫情,给猪场造成严重的经济损失。根据流行病学调查、临床症状、病理变化并结合实验室检验
周树志教授主编的<有序民主论--当代反腐建廉新战略构想>一书,是反映我国当前反腐败斗争和政治体制改革实际的一本理论著作.本书在理论上提出有序民主反腐建廉的新战略构想,
目前 Web文档中充斥着各种图像 ,因此 ,对 Web上的图像进行清洗就显得非常必要 .提出了 Web图像清洗的概念 ,给出了一种基于机器学习的 Web图像清洗方案 ,并实现了基于此方案的系统 .将图像特征的提取建立在 Web文档的 DOM结构之上 ,并在决策树算法的基础上对多种特征表示及组合进行了实验和评估 .实验结果表明 ,提出的 Web图像清洗方案切实可行 ,清洗方法具有较快的速度和准确性
采用文献研究和例证分析相结合的方法,揭示传统翻译观对翻译的制约,并依据解构主义理论,分析了成语在不同语境中实现最佳翻译的解构策略。结果表明:传统翻译理论中所谓的“忠实”