基于凸多面体抽象域的自适应强化学习技术研究

来源 :计算机学报 | 被引量 : 0次 | 上传用户:mnbmnbmnbmnbmnb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表格驱动的算法是解决强化学习问题的一类重要方法,但由于“维数灾”现象的存在,这种方法不能直接应用于解决具有连续状态空间的强化学习问题.解决维数灾问题的方法主要包括两种:状态空间的离散化和函数近似方法.相比函数近似,基于连续状态空间离散化的表格驱动方法具有原理直观、程序结构简单和计算轻量化的特点.基于连续状态空间离散化方法的关键是发现合适的状态空间离散化机制,平衡计算量及准确性,并且确保基于离散抽象状态空间的数值性度量,例如V值函数和Q值函数,可以较为准确地对原始强化学习问题进行策略评估和最优策略π*计算.
其他文献
在传统电视媒体架构中,地方台最接地气,收视群体广。随着地方台节目形态的日趋多样,对不同风格的主持人需求增加,但实际上主持人的数量有限,一位主持人经常要主持多种不同风
0 引言先天性泪囊瘘是一种泪道发育异常,常开口于内眦角鼻下方。我院2006—01/2010—04共收治先天性泪囊瘘9例10眼,经手术治疗取得良好效果,现报道如下。
通过精密配制丹参素钠标准溶液和内标溶液,对血浆样品进行处理,结合相关的专属性试验,考察了丹参滴注液中丹参素钠血浆样品的线性关系、准确度及精密度、稳定性,探讨了丹参素
为了解遗传毒性测试方法在烟草制品体外毒理学评价中的应用,本文对目前在烟草制品体外毒理学评价中常用的检测方法和国内外在烟草制品体外遗传毒性检测领域所取得的成果及研究
进入10月份,绝大部分地方的草莓已经移栽定植完毕,处在缓苗阶段,这是草莓最脆弱的阶段之一,天气开始转凉,早晚温差逐渐增大,很容易感染病菌。此期的主要任务是促进幼苗快速生
介绍了交通隔离栅粉末浸塑的原理、工艺、设备及产品性能,并以实例说明生产浸塑隔离栅的经济效益
近年来。在高等护理教育的改革中,人文素质教育越来越受到重视。各大学护理院系纷纷在课程设置中增加人文社科课程的比例,将传统的“以医学为导向的课程体系”向“突出护理.加大
本文简述了分类讨论的一般步骤和分类讨论的动因和方法,特别强调了概念型,性质型,含参型,简化型四种基本方法.
通过 1999年和 1989年对重庆市近郊蔬菜地土壤中重金属的监测和评价得出 :重庆市近郊蔬菜地土壤重金属中除Hg含量没多大变化外 ,Pb、Cd、As含量变化较大 ,并且沙坪坝区和南岸
收集65例宫内少许妊娠残留物患者资料,根据治疗方式的不同将其随机分为观察组和对照组,其中观察组患者采用生新汤内服治疗,对照组采用清宫术治疗。两组患者治疗的疗效相当,无明显