面向DQN的值函数高估问题研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:meyxiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,在人工智能领域中深度强化学习取得令人瞩目的成就。在处理大规模连续状态空间的任务上,深度强化学习方法成功解决了传统强化学习方法中的“维数灾难”问题。深度Q网络存在高估动作值的问题,导致算法性能差强人意。深度双Q网络尝试将动作的选择和评估分离,一定程度上缓解了深度Q 网络的过高估计问题,但仍出现了低估动作值的现象。本文致力于提高深度强化学习中目标值计算的准确性,针对深度Q网络的高估和深度双Q网络的低估问题,进行以下3个内容的研究:(1)将强化学习方法中的基于权重的双估计器引入到深度Q网络中,通过加权计算的方式在深度Q网络和深度双Q网络中寻找平衡。为了进一步地提高目标值计算的准确性,将平均值深度Q网络算法中的平均值思想加以改进,提出基于时间差分误差的平均值方法来计算目标值。最后,将带权重的深度双Q网络和改进后的平均值方法结合,提出了基于权重平均值的深度双Q网络算法。通过多组实验证明,该算法在Atari 2600平台上的性能具有较大提升。(2)为了进一步地缓解深度Q 网络固有的高估以及深度双Q网络固有的低估问题,使用强化学习中的同策略方法代替Q学习算法对两个网络进行计算,通过权重的方式计算目标值。不同于Q学习这种异策略算法,同策略方法具有更强的收敛保证,且在在线更新中更具有潜在优势。因此为了提高目标值计算的准确性,提出了一种基于权重的深度双Q(σ)网络算法。该算法通过Sarsa算法和Expected Sarsa算法的线性组合计算评估网络和目标网络的分量值,最后利用权重将两者的分量值结合计算最终的目标值。实验表明,在Atari 2600游戏中,该算法具有优异性和稳定性。(3)同策略方法虽然能够保证收敛性,但是存在探索不充分的情况。而异策略方法使用了与目标策略不一致的行为策略,能够让智能体发现更多重要的状态信息。为了进一步缓解深度Q网络存在的过高估计缺陷,提出了一种基于异策略和同策略结合的深度双Q网络算法。该算法对评估网络使用异策略方法计算分量值,对目标网络利用同策略方法计算分量值,然后通过权重加权计算目标值。实验表明,该算法在多个视频游戏任务中的性能得到提升。本文主要基于值函数的深度强化学习算法,针对深度Q网络高估问题进行研究,致力于提高目标值计算的准确性并提升算法的性能。
其他文献
现今对于移动社交网络的研究主要是网络拓扑结构演化模型分析、谣言传播模型建立和控制策略以及谣言溯源探究和预测等,其中谣言传播模型建立和控制策略已成为情报科学以及其
随着我国油气工业和信息技术的不断发展,企业的营销环境也发生了根本性的变化。对于石油管材企业来讲,传统的营销方式已经远远不能适应新的市场营销环境。企业要想在市场竞争
自然语言文本中的事件之间存在各种关系,比如同指关系,时序关系,因果关系等等。其中,事件时序关系识别任务旨在检测事件之间是否存在时序关系并对其进行正确分类。该任务是自
由广东省委牵头的“三旧”改造作为节约集约用地的重要内容和宜居城乡建设的重要任务,关系到JZ市经济社会发展全局,有重大而深远的意义。CH房地产集团有限公司在JZ市“三旧”
过氧化氢(H2O2)是一种重要的商业产品,在工业、临床等领域都有广泛的应用。此外,它还是人体活性氧物种,参与人体多种生化反应。但是,H2O2商业价值导致它被大量滥用,严重污染环
目前糖尿病治疗是通过注射胰岛素的方法,患者需要每天多次注射胰岛素,而且胰岛素的剂量无法精确控制,导致低血糖的情况发生。人工胰脏系统由于根据血糖的水平自动调节胰岛素
近代,儿童在传统儒家的传宗接代和道家的赤子童心观念上增添了新的意涵,西方的孩子中心、幼者本位、尊重儿童等观念传入中国并得到不断深化,儿童独立意义与价值被发现。从晚
《永生》周刊是邹韬奋的生活书局创办的综合性时事周刊,一九三六年三月七日创刊于上海,同年六月二十七日被迫停刊,共出版十七期。该刊是在中国不断遭受日本侵略,国家民族危在
在山东省着力实施新旧动能转换重大工程的背景下,文化产业逐渐成为推进经济发展方式转变新的主体力量,因此促进文化产业的发展,揭示区域文化产业的时空格局演化及内在机理具
在油气生产过程中,参数设置的不合理会增加设备的故障率并影响产量。本文针对我国煤层气生产过程,综合考虑工况参数特征,提出了一种基于BP神经网络的电潜螺杆泵工况诊断方法,