校正最大化偏差的异策略强化学习方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户：javaname39

【摘要】

：

强化学习是机器学习领域中的重要分支。强化学习通过与环境交互获得奖赏信号,使期望奖赏最大化,以获得最优策略。根据行为策略与目标策略是否相同,强化学习方法可分为同策略

【作者】

：

胡智慧

【出处】

：

苏州大学

【发表日期】

：

2019年01期

【关键词】

：

强化学习异策略 Q-学习最大化偏差

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是机器学习领域中的重要分支。强化学习通过与环境交互获得奖赏信号,使期望奖赏最大化,以获得最优策略。根据行为策略与目标策略是否相同,强化学习方法可分为同策略方法和异策略方法。异策略方法是行为策略与目标策略不同的方法,具有实现简单、计算快速等特点,被广泛应用到实际问题中。Q-Learning是一种重要的异策略时间差分控制方法,但是在一些随机环境中,如在具有高随机奖赏和高折扣因子的最优控制问题中,Q-Learning会产生很高的统计误差。造成这种现象的原因是在更新时使用估计值的最大值作为真实最大值的估计而引入的正偏差,这种正偏差被称为最大化偏差,会损害策略的质量,影响算法的收敛速度。针对上述问题,提出三种校正最大化偏差的异策略强化学习方法。主要研究包括以下三部分内容:(1)面向Q-Learning的异策略最大化偏差校正算法的研究。针对传统Q-Learning在解决最优控制问题时会产生最大化偏差这一问题,从实践角度出发,给出Q-Learning更新方程的累加形式,分析了正偏差的产生原因以及正偏差影响Q-Learning收敛速度的原因;其次,给出更新方程的一种泛化形式,以方便对估计器进行改进;在此基础上提出一种新的基于Q-Learning的异策略最大化偏差校正算法。该算法使用当前估计值替代之前所有有偏的估计值,重新构造估计器以修正状态动作值函数,减少最大化偏差对于值函数收敛的影响,提高收敛速度和收敛精度。(2)面向资格迹的异策略最大化偏差校正算法的研究。针对在大规模离散状态空间中,使用资格迹进行信度分配会加剧最大化偏差的问题,提出了一种面向资格迹的异策略最大化偏差校正算法,由改进的估计器得到较准确的估计值进行值函数更新,使用资格迹将当前的TD误差传播到整个值函数空间,提高数据利用率,加快值函数的修正速度,提高算法的收敛性能。(3)面向Dyna框架的异策略最大化偏差校正算法的研究。针对在模型可知的复杂任务中,Dyna-Q算法将学习过程和规划过程结合起来以提高数据利用率,但在两个过程中都会产生最大化偏差,导致算法收敛较慢且难以适应变化环境等问题,提出了一种面向Dyna框架的异策略最大化偏差校正算法。该算法通过优化值函数更新时使用的估计器,减少在学习过程和规划过程中估计值函数产生最大化偏差,使用规划进一步提高算法的收敛速度,使算法在环境模型改变时能够快速做出反应。

其他文献

基于DEA方法考虑投资者心理的模糊投资组合效率评价和决策分析

投资者在做科学合理的决策之前,必须要准确地了解现实投资环境中的不确定性。其中,投资者心理这一不确定因素不可避免地存在于决策过程中。同时,人们越来越重视评估投资组合

学位

模糊投资组合投资者心理DEA方法效率评价DEA前景交叉效率方法

OFDM系统中子载波干扰分析与抑制技术研究

正交频分复用系统(OFDM)是一种特殊的多载波传输方案。系统具有较强的抗干扰能力及较高的频谱利用率等优点,因此已被很多数字通信标准所广泛采用,目前已成为5G无线通信的关键

学位

OFDM时变信道ICI频域均衡算法

胱抑素C与老年急性缺血性卒中后早期神经功能恶化相关性研究

目的:探讨胱抑素C与老年急性缺血性卒中后早期神经功能恶化之间的相关性。方法:选取2017年12月至2018年5月期间由本院收治、年龄≥60岁的140例急性缺血性卒中(AIS)患者,并分析其一般资料、临床资料。根据血清胱抑素C水平将患者分为2组,低分组45例,高分组95例。根据美国国立卫生研究院卒中量表(National Institutes of Health Stroke Scale,NIHSS

学位

胱抑素C老年急性缺血性卒中患者早期神经功能恶化

基于出租车GPS数据的城市居民出行时空特征挖掘研究

随着GPS定位、卫星导航、无线通信等技术的快速发展,民用GPS等定位设备不断普及和广泛应用。这些GPS移动终端设备以及基于位置信息服务(Location Base Station)的各种应用产

学位

出租车GPS数据载客热点区域轨迹空间聚类

两种用于认知器件的存储材料的制备与性能研究

忆阻的概念自1971年被提出至今已有近45年的发展历史。自2008年以来,忆阻器在仿生物突触方面的研究已取得很大进展,绝大多数研究工作都致力于通过忆阻器来实现模拟人脑记忆和

学位

铁电隧道结隧穿电致电阻人工识别编码训练并五苯

生物质热解液和壳聚糖复合保鲜剂的配制及其对辣椒贮藏品质的影响

为了提高生物质资源利用率,同时开发低毒无害的果蔬保鲜剂,本实验以生物质热解液为主要的实验材料,进行了生物质热解液和壳聚糖对辣椒炭疽病菌的抑菌实验和复合保鲜剂的配制,

学位

生物质热解液壳聚糖辣椒炭疽病菌抑菌作用防腐保鲜

基于队列人群的中医体质与非酒精性脂肪肝的关系和Osteopontin中和抗体在大鼠脂肪性肝纤维化消退中的作用研究

研究背景与目的:非酒精性脂肪性肝病(fatty liver disease,NAFLD)是指一组因机体代谢紊乱所致的以肝细胞脂肪变性为主要特征的临床病理综合征。NAFLD在早期是可逆的,发病进展

学位

NAFLD队列人群中医体质Osteopontin中和抗体

论基准刑的规范化

量刑偏差现象的显著表现在于“同案不同罚”,这一现象的存在势必影响司法权威和社会的公平公正。通过比较审判实践中的相似案例发现,基准刑是影响量刑偏差的关键因素。在研究基准刑的相关问题时,明确界定基准刑的概念十分必要,不能将基准刑和量刑基准混同。现阶段我国基准刑确立存在的主要问题有:一是部分犯罪量刑起点的适用范围过于宽泛,法官难以准确确定量刑起点;二是用于调节量刑起点的犯罪事实过于随意,相似罪名之间对其

学位

基准刑量刑起点犯罪事实量刑情节责任主义

玫烟色棒束孢对植物黄酮甲基糖基化转化的研究

植物黄酮是一类结构和活性复杂多样的重要次级代谢产物,在医药、农业和食品加工领域具有广泛的用途,但低溶解性和低生物利用度等特性限制了黄酮功能的发挥。微生物转化可在温

学位

玫烟色棒束孢植物黄酮甲基糖基化糖苷衍生物

苜蓿冰结构蛋白提取分离及对安琪酵母抗冻保护作用的研究

冰结构蛋白是一类生物体为抵御外界寒冷环境的应急反应过程中而产生的多肽,具有热滞活性、阻止冰晶形成、修饰冰晶形态及抑制重结晶的能力。本文以“肇东”紫花苜蓿干草为原

学位

苜蓿冰结构蛋白分离纯化酵母菌抗冻保护

校正最大化偏差的异策略强化学习方法研究

与本文相关的学术论文