一种基于核的在线策略梯度算法

来源 :新疆大学学报(自然科学版) | 被引量 : 0次 | 上传用户：zwj10191021

【摘要】

：

策略梯度算法是一种广义的策略迭代方法,由于其高效性得到了广泛的关注和研究.策略梯度算法包括策略评估与策略改进两个部分.传统的在线策略梯度方法在处理大规模问题时,表现

【作者】

：

唐丽丽朱海军朱斐

【机构】

：

苏州农业职业技术学院,苏州大学计算机科学与技术学院

【出处】

：

新疆大学学报(自然科学版)

【发表日期】

：

2018年02期

【关键词】

：

策略梯度在线学习核方法强化学习时间差分

【基金项目】

：

国家自然科学基金(61303108)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

策略梯度算法是一种广义的策略迭代方法,由于其高效性得到了广泛的关注和研究.策略梯度算法包括策略评估与策略改进两个部分.传统的在线策略梯度方法在处理大规模问题时,表现不佳.为此,提出一种基于核的在线策略梯度算法,在强化学习经典算法评论家行动者的框架下,采用核方法近似表示值函数与策略函数,采用真在线时间差分算法评估策略的值函数,并根据真在线思想改进策略参数的更新方式.最后通过平衡杆问题和爬山小车实验验证算法的有效性.

其他文献

跨世纪的思考——“二十世纪国乐思想研讨会”综述

<正> 香港大学亚洲研究中心与香港民族音乐学会联会主办的“二十世纪国乐思考研讨会”于1993年2月16日至19日在香港举行。来自北京、上海、天津、浙江、福建、广东、吉林、贵

期刊

国乐思想国乐教育二十世纪研讨会

某高层酒店结构设计

结合某高层酒店的上部结构、地基基础等的特殊情况,采用了框架—剪力墙结构,介绍了相应的结构计算分析方法及构造处理措施,结果表明结构整体指标及地基基础的计算均能满足规

期刊

高层结构框架—剪力墙性能化设计

基于用户偏好和项目属性的协同过滤推荐算法

协同过滤推荐算法是目前应用最为广泛的个性化推荐方法之一,但传统的推荐算法在计算目标用户邻居集时只考虑用户项目评分矩阵中的具体数值,没有考虑用户偏好以及用户评分与项

期刊

协同过滤推荐系统用户偏好用户项目属性评分矩阵

基于体感技术的手势追踪与识别

体感技术使人们更直接的通过自己的肢体动作与电脑设备产生互动,减小了鼠标、键盘等传统输入设备带来的束缚.使用Kinect体感设备,对体感关键技术及Kalman滤波器算法进行了深

期刊

体感技术Kinect手势追踪手势识别Kalman

浅谈公路路基施工问题

公路路基施工问题是公路工程的基础,路基是否平整压实关系到整个公路工程质量的好坏,公路工程质量的好坏关系到人们出行的安全。公路路基施工工程不仅基础,而且施工过程复杂

期刊

公路路基工程施工技术施工步骤

节能路灯控制系统设计

节能路灯控制在如今生活中起重大作用。在现代城市生活中,因为路灯故障问题发生的事故屡见不鲜,因此,路灯发生故障后能及时反馈给工作人员是十分必要的。因此,本设计的主要目

期刊

节能路灯控制故障检测

大学生学习自主性测量维度结构研究

学习自主性是自主学习行为模式的表现特征,对其构成维度的研究实质上是开发测量量表对其构成要素进行科学的界定.本文在预测问卷的基础上,运用SPSS进行因子分析,得出信效度较

期刊

大学生学习自主性测量维度

声入心通，声通意解——《渔父》教学案例

<正>一、设计思想 1.教学思路。本文为问题探讨专题"直面人生"中的一篇,设计通过重点探讨"生存与毁灭"的矛盾,着眼于培养探讨意识。通过对人生的思考,磨砺坚强的意志。同时利

会议

深化初级预选士官实战化训练的探索与实践

在新的形势下推进初级预选士官教育创新发展,应把实战化训练融入专业培训全过程,强化近似实战的训练实践,使受训学员具备全面扎实的素质能力基础,更好地适应岗位需求和实战需

期刊

装备保障初级预选士官实战化训练

一种基于核的在线策略梯度算法

其他学术论文