基于值函数估计偏差修正的强化学习方法研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:coolzhaonan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是求解马尔科夫决策过程问题的重要方法。强化学习的研究已取得了丰富的成果,特别是自深度强化学习出现以来,强化学习在诸多领域都获得了相当成功的应用。基于值函数的强化学习是其中的一个重要分支,出现了以深度Q网络为代表的一大批经典算法。在迭代求解动作值函数的过程中,都会涉及到最大期望动作值函数的估计问题,与此相伴的是存在其中的估计偏差问题。这个问题同样也存在于机器学习的其它领域中。因此,对最大期望值的准确估计是个非常重要的问题。本文围绕值函数估计偏差修正问题展开研究,主要内容如下:(1)针对Q类学习算法高估、DQ类学习算法低估的问题,研究了最大期望值估计偏差产生的原因,并提出了相应的偏差修正思路。首先,提出了次序估计量,并对次序估计量的估计偏差进行了分析,使得现有的最大期望值估计方法均可视为次序估计量的组合形式。其次,分析了现有估计方法存在高估低估的原因,重点对最大估计量和双估计量的优势与不足进行了分析。最后,得出结论:单纯用某一个次序估计量参与值函数更新都会带来不同程度的估计偏差,有控制地随机组合多个次序估计量能有效修正估计偏差。本部分内容为后续研究工作提供了直接的理论指导。(2)以构造无偏估计量为目标,从随机并可控这个角度入手,提出一种基于集成双估计的偏差修正强化学习方法。首先,设计了一个集成双估计量,并从理论上证明存在合适的参数使该估计量无偏。其次,将集成双估计量用于强化学习值函数更新算法,分别提出了集成双Q学习算法和集成双深度Q网络算法,并从理论上证明了集成双Q学习算法的无偏性和收敛性。所提算法基于有随机特点的双估计框架,在使用最大化估计操作去评估动作的同时可控地加入双估计操作,避免了单独使用一个估计量时存在的高估或低估现象。(3)针对由于确定性选择值函数进行估计所导致的估计偏差问题,从随机选择的角度入手,将最大期望动作值的估计问题视为估计量的“选择”问题,提出一种基于随机选择估计策略的偏差修正强化学习方法。首先,设计了随机选择估计量,并从理论上证明了该估计量的无偏性。其次,将该估计量应用于强化学习算法设计,分别提出了基于随机选择估计策略的双Q学习和随机双深度Q网络。然后,对所提算法中的关键参数进行了研究,分别针对期望可求和期望不可求两种情况设计了参数的计算公式。最后,从幕随机选择估计的角度提出了幕随机双深度Q网络。(4)动作的探索和利用一直是强化学习的关键问题。智能体既要充分利用最大值动作,又要探索潜在的最优动作。通过分析,值函数估计也存在类似于动作选择的不确定性,既要利用已有的最优值函数,也要探索未知的值函数,以达到修正估计偏差的目的。因此,受动作的探索和利用启发,把对最大期望值的估计问题转化为对值函数的有效探索问题。从值函数有效探索这一全新的角度展开研究,提出了基于值函数探索奖励的贝叶斯深度Q网络。首先,以捕获值函数的不确定性为目的,在深度Q网络最后一层使用贝叶斯线性回归,构造一个值函数探索奖励项。然后,将该探索奖励项加入原值函数,构造出具有探索特点的新值函数。最后,在估计最大期望值时,用新值函数进行动作选择,用原来的值函数作为最大期望的估计。所提算法兼具了动作探索和值函数探索,有效平衡了估计偏差。(5)在贝叶斯深度Q网络中,用于计算目标值的动作来自后验分布的随机抽样,导致目标值的计算具有较大的波动性。为了增加贝叶斯深度Q网络的稳定性,将集成双估计方法及随机选择策略方法分别用于贝叶斯深度Q网络中目标值的计算,将后验分布均值用于目标值的计算以提高目标值的稳定性。基于此,分别提出了基于集成双估计的贝叶斯深度Q网络和基于随机选择估计策略的贝叶斯深度Q网络。在格子世界和雅达利游戏上的仿真结果表明,所提新算法能有效消除值函数估计偏差,提高学习性能,稳定学习进程。该论文有图28幅,表5个,参考文献114篇。
其他文献
目的分析小儿病毒性心肌炎的护理体会。方法选取我院2010年4月~2014年4月收治的病毒性心肌炎患儿100例为研究对象,随机分为两组,对照组给予常规护理,观察组给予综合性护理,比
目的观察白血病患儿血培养病原菌分布及耐药情况,研究其危险因素。方法对某医院2013年9月—2016年11月小儿血液专科病房内110例患儿血培养分离的131株病原菌种类、耐药类型,
一、研究背景和目的孤独症谱系障碍(ASD)是一类以交互性社交交流和社交互动的持续损害以及受限的、重复的行为、兴趣或活动模式为基本特征的神经发育障碍性疾病。这些症状从
将离子推力器电源处理单元(PPU)的屏栅电源拓扑作为研究对象,从电推进发展现状及趋势出发,介绍了国内外的研究进展和应用情况。主要就目前屏栅电源所用到的双全桥并联拓扑、
学科的性质与任务是任何学科发展首先面临的,也是经常关注的问题。区域地理是地理学中最古老最核心的部分,学科的发展必须继承地域性、综合性与地域综合思想的地理学传统。区
背景第四届中国绿化博览会将于2020年8月至10月在贵州省黔南州都匀市举办,绿博园位于都匀老城区与经济开发区之间,总面积1959公顷,核心区面积396公顷。本届绿博会以“绿圆中
本研究旨在分析《红楼梦》两个英译本中名词化的使用特点及其与隐/显化之间的关系。研究将英语名词化界定为由限定性动词经过转换生成,并将名词化结构界定为由限定性小句结构
自改革开放以来,各行各业都得到迅猛的发展,尤其是建筑行业,随着中国融入全球大经济圈,建筑行业正面临着机遇与挑战。近几年来,建筑行业正经历着全球市场的考验,相互之间的竞
在英美法系的衡平法及信托概念的基础上发展起来的信托收据制度,源于信用证贸易项下进一步融资的需要,用以解决银行释放单据与保留相关权利的矛盾。信托收据规定进口商作为银
本论文的主要研究对象是生物信息学中的蛋白质序列分类问题。利用计算的方法,从蛋白质的一级序列决定了其三维结构的角度出发,针对氨基酸序列建立数学模型进行蛋白质结构分类