【摘 要】
:
策略梯度算法是一种广义的策略迭代方法,由于其高效性得到了广泛的关注和研究.策略梯度算法包括策略评估与策略改进两个部分.传统的在线策略梯度方法在处理大规模问题时,表现
【机 构】
:
苏州农业职业技术学院,苏州大学计算机科学与技术学院
【基金项目】
:
国家自然科学基金(61303108)
论文部分内容阅读
策略梯度算法是一种广义的策略迭代方法,由于其高效性得到了广泛的关注和研究.策略梯度算法包括策略评估与策略改进两个部分.传统的在线策略梯度方法在处理大规模问题时,表现不佳.为此,提出一种基于核的在线策略梯度算法,在强化学习经典算法评论家行动者的框架下,采用核方法近似表示值函数与策略函数,采用真在线时间差分算法评估策略的值函数,并根据真在线思想改进策略参数的更新方式.最后通过平衡杆问题和爬山小车实验验证算法的有效性.
其他文献
<正> 香港大学亚洲研究中心与香港民族音乐学会联会主办的“二十世纪国乐思考研讨会”于1993年2月16日至19日在香港举行。来自北京、上海、天津、浙江、福建、广东、吉林、贵
结合某高层酒店的上部结构、地基基础等的特殊情况,采用了框架—剪力墙结构,介绍了相应的结构计算分析方法及构造处理措施,结果表明结构整体指标及地基基础的计算均能满足规
协同过滤推荐算法是目前应用最为广泛的个性化推荐方法之一,但传统的推荐算法在计算目标用户邻居集时只考虑用户项目评分矩阵中的具体数值,没有考虑用户偏好以及用户评分与项
体感技术使人们更直接的通过自己的肢体动作与电脑设备产生互动,减小了鼠标、键盘等传统输入设备带来的束缚.使用Kinect体感设备,对体感关键技术及Kalman滤波器算法进行了深
公路路基施工问题是公路工程的基础,路基是否平整压实关系到整个公路工程质量的好坏,公路工程质量的好坏关系到人们出行的安全。公路路基施工工程不仅基础,而且施工过程复杂
节能路灯控制在如今生活中起重大作用。在现代城市生活中,因为路灯故障问题发生的事故屡见不鲜,因此,路灯发生故障后能及时反馈给工作人员是十分必要的。因此,本设计的主要目
学习自主性是自主学习行为模式的表现特征,对其构成维度的研究实质上是开发测量量表对其构成要素进行科学的界定.本文在预测问卷的基础上,运用SPSS进行因子分析,得出信效度较
<正>一、设计思想 1.教学思路。本文为问题探讨专题"直面人生"中的一篇,设计通过重点探讨"生存与毁灭"的矛盾,着眼于培养探讨意识。通过对人生的思考,磨砺坚强的意志。同时利
在新的形势下推进初级预选士官教育创新发展,应把实战化训练融入专业培训全过程,强化近似实战的训练实践,使受训学员具备全面扎实的素质能力基础,更好地适应岗位需求和实战需