基于高斯过程分类器的连续空间强化学习

来源 :电子学报 | 被引量 : 0次 | 上传用户:saosaoxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何将强化学习方法推广到大规模或连续空间,是决定强化学习方法能否得到广泛应用的关键.不同于已有的值函数逼近法,把强化学习构建为一个简单的二分类问题,利用分类算法来得到强化学习中的策略,提出一种基于高斯过程分类器的连续状态和连续动作空间强化学习方法.首先将连续动作空间离散化为确定数目的离散动作,然后利用高斯分类器对系统的连续状态一离散动作对进行正负分类,对判定为正类的离散动作按其概率值进行加权求和,进而得到实际作用于系统的连续动作.小船靠岸问题的仿真结果表明所提方法能够有效解决强化学习的连续空间表示问题.
其他文献
牛髋关节窝较浅,股骨头弯曲半径比较小,关节窝内圆韧带细,无副韧带,加之后肢运动不灵活,这是牛易发生髋关节脱臼的生理原因。最常见的病因是外伤性脱位,一是间接的外力作用,如蹬空、
现实世界中最优的图像融合系统莫过于生物视觉系统.如果能够了解生物视觉的基本原理,建立其数学模型,并能应用于多传感器图像融合实践中,将会对多传感器图像融合技术的发展有很大促进作用.本文以人类视觉的生物机理和感受野的数学模型为基础,提出了一种新颖的基于人眼视觉感受野模型的图像融合算法.这种算法非常适合融合两幅灰度差异较大的异质传感器图像,融合图像在保留两幅原图像中有用信息的同时,还对图像间的差异进行了
提出一种基于像素运动模型的数字造影系统成像畸变的校正方法.通过在一些间隔均匀的方位上获取标志板图像,利用单幅图像的畸变校正算法计算出各幅图像中的像素受畸变影响而产生的运动,并据此求得像素运动模型的参数.利用该模型可以校正C型臂在任意方位下获取的造影图像的畸变.实验证明,该算法具有较高的精度和较快的速度.