参数相关任务中Option算法的子任务重用

来源 :煤炭技术 | 被引量 : 0次 | 上传用户:qingshuiyilian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
将分层强化学习算法中的子任务应用于同类学习任务中是当前强化学习的一个研究热点。在控制系统中,分层强化学习算法存在着子任务受系统参数影响而难以重用的问题。针对这一问题,文章提出基于定性动作的分层Option算法。算法用定性动作描述在参数值不同的系统中,系统同一状态的最优动作所具有的共同特征。同时建立分层子任务,用低层子任务屏蔽系统参数对高层子任务的影响,文中提出的算法用于倒立摆的控制中,算法利用学好的高层子任务仅需要进行少量的学习即可成功控制各种参数值不同的倒立摆系统。 Applying subtasks in hierarchical reinforcement learning algorithms to similar learning tasks is a hot research topic in current intensive learning. In the control system, the hierarchical enhancement learning algorithm has the problem that sub-tasks are hard to reuse due to the influence of system parameters. In response to this problem, the article proposes a hierarchical Option algorithm based on qualitative action. The algorithm uses qualitative action to describe the common features possessed by the optimal states of the same state in systems with different parameter values. At the same time, a hierarchical subtask is established, and the effect of system parameters on the top subtasks is masked with lower subtasks. The proposed algorithm is applied to the control of inverted pendulum. The algorithm can make use of the good high level subtasks that only a small amount of learning can be successfully controlled Inverted pendulum system with different parameter values.
其他文献
目的文章主要针对个性化护理在泌尿外科术后留置导管患者中的应用进行分析.方法选取2016年1-12月本院收治的200例行泌尿外科手术治疗的患者作为研究对象,采用随机数字法分为
本研究的研究目的:分析个性化护理措施在辅助生殖护理中的具体应用.研究方法:研究的对象均为来我院接受辅助生殖的产妇,选择的研究例数为100例,研究对象来我院接受治疗的时间
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
总结两例PICC置管血栓合并感染的护理心得.对PICC置管的患者应当随时观察患者情况,若发生血栓合并感染的情况,可以适当的采用溶栓和抗感染护理,同时加强患者心理护理及一般护
目的文章主要针对预防性护理对老年呼吸内科医院感染的控制效果进行分析研究.方法本次选择 60 例研究对象均为在我院呼吸内科接受治疗的院内感染老年患者,采用双盲法分为两组
目的:观察舒适护理在老年慢性心力衰竭护理中的临床效果.方法:选取我院在2014年9月到2015年9月期间收治的老年慢性心力衰竭患者100例,按照计算机表法将其分为对照组与观察组,
目的:最大限度减低患者应激反应,促进患者康复,缩短住院时间,降低住院费用.提高病人满意度.方法:在传统护理的基础上进行ERAS理念的优化,缓解手术应激,减少并发症,使患者的康
目的:对综合护理干预预防重症监护室机械通气相关性肺炎的效果进行评价.方法:选取2016年12月到2018年3月期间收治的116例重症监护室机械通气患者作为本次研究对象,随机分为对
目的:分析保留灌肠治疗溃疡性结肠炎的护理效果.方法:于2017年8月至2018年7月入组我院34例保留灌肠治疗溃疡性结肠炎患者,分组时符合数字表法,纳入实验组的17例患者行护理干
目的:探讨褥疮护理中应用两种不同治疗方法的疗效.方法:将2015年12月至2017年11月在我院住院治疗发生褥疮的60例患者根据先后入院顺序分为传统组和改良组,采用传统褥疮治疗方