【摘 要】
:
深度强化学习算法将传统强化学习与深度学习两者结合,是目前解决高维决策任务的一类典型算法,已在各领域广泛应用并取得了突破性进展。经验回放机制是深度强化学习中一项关键技术,可以在消除时序样本相关性的同时提高经验样本的利用率。传统的经验回放方法通过对经验样本进行统一存储并随机采样来完成智能体的训练过程,未考虑到不同重要性程度的经验样本对于模型训练的不同影响。本文着眼于提高基于经验回放机制的深度强化学习算
论文部分内容阅读
深度强化学习算法将传统强化学习与深度学习两者结合,是目前解决高维决策任务的一类典型算法,已在各领域广泛应用并取得了突破性进展。经验回放机制是深度强化学习中一项关键技术,可以在消除时序样本相关性的同时提高经验样本的利用率。传统的经验回放方法通过对经验样本进行统一存储并随机采样来完成智能体的训练过程,未考虑到不同重要性程度的经验样本对于模型训练的不同影响。本文着眼于提高基于经验回放机制的深度强化学习算法性能,从经验样本的存储过程和采样过程两个角度出发,提出以下三方面研究内容:(1)强化学习中情节累积回报是对智能体(Agent)一系列动作的完整评价,传统的经验回放方法未考虑到情节累积回报对于网络训练的影响。基于优先级的经验回放方法由于在网络训练的每个阶段都需要对经验样本进行优先级更新,在一定程度上降低了算法的训练效率。针对以上问题,考虑经验样本的存储过程,将情节累积回报作为样本分类依据,提出一种基于情节分类经验回放的深度确定性策略梯度算法。实验证明该算法通过高效利用过去较为成功的经验,在多种连续控制任务中表现优异。(2)高估偏差是Q学习的一个特性,在每一次算法更新中这种偏差会不断累积,深度确定性策略梯度算法中也存在着累积误差带来的高估偏差问题。高估偏差问题增加了算法收敛到次优策略的可能,智能体根据次优策略与环境交互得到的经验样本准确性较低,利用存在误差的经验样本进行模型训练会导致算法的性能表现不佳。为了减少高估偏差对于模型训练的影响,提出一种基于截断双评论家的情节分类经验回放算法。实验证明该算法在提高经验样本准确度的基础上能够有效提升算法性能。(3)利用经验缓冲池中经验样本训练网络模型,存在当前策略与过往经验所采用策略差异过大的问题,在基于策略梯度的系列算法中往往会导致网络训练的波动性较大,算法不稳定。在基于截断双评论家的情节分类经验回放算法中,由于使用了双评论家网络参与模型训练,这种网络训练的波动被进一步增大,算法的稳定性降低。针对以上问题,从经验样本的采样过程出发,提出一种基于新近与历史经验分类的截断双评论家策略梯度算法。通过KL散度限制策略的变化程度以及跳过策略相差过大的梯度更新来缓解两种策略相差过大的问题,实验结果表明该算法在多种连续控制任务中性能表现更佳。
其他文献
命名实体识别旨在从无结构文本中识别出属于预定义语义类型的片段,是信息抽取和自然语言处理的关键问题之一。过去二十年里,命名实体识别技术取得了很多成功进展,但绝大多数的方法需要依赖大量同领域的标注语料。这使得将训练好的模型应用到其它领域时,必须在人工标注的目标领域样例上重新训练模型,否则性能下降剧烈。本文从以下两方面入手,提高目标领域的实体识别性能。一方面,试图从源领域的标注数据中挖掘任务相关、领域无
强化学习问题通常可以构建为马尔科夫决策进程,是一种序贯决策问题。强化学习中,智能体通过与环境不断交互,并从中获取奖赏来进行自主学习。近几年,强化学习与深度学习、元学习等结合形成的新算法在人工智能领域十分流行。然而,强化学习中一直以来都存在一个重大的挑战,探索与利用的平衡,这二者之间的平衡对于算法的性能有很大的影响。针对这一问题,本文提出了多种权衡探索与利用的强化学习算法,并分别在深度强化学习和元强
<正>从某种意义上说,习近平新时代中国特色社会主义思想之所以具有强大的真理力量、道义力量、实践力量、文明力量,就在于其在马克思主义世界观和方法论上深刻塑造并充分实践了“六个必须坚持”的理论精粹和实践智慧
习近平新时代中国特色社会主义思想的世界观和方法论是中国化时代化的马克思主义世界观和方法论,为全党和全国各族人民提供了科学的世界观方法论、奋进新征程的根本遵循与凝心聚力的思想武器。“六个必须坚持”从哲学层面凝练概括了习近平新时代中国特色社会主义思想的精髓要义,构成了相互联系、内在统一的世界观和方法论,系统阐明了中国共产党人应当坚持什么样的立场观点与方法推进中国式现代化宏图大业,将我们对马克思主义活的
在强化学习中,一个经典问题是如何解决价值函数对目标进行评估时产生的估计偏差。基于截断式Q学习的方法缓解了行动者评论家算法中出现的过估计偏差,但忽略了来自低估偏差的影响。其次,在使用传统经验回放机制的行动者评论家算法中仍然存在着低效采样导致的缓慢学习。本文主要针对以上问题,对现有算法做出了结合和改进,具体的研究内容可以总结为以下三个方面:(1)目前使用单一估计器进行更新的行动者评论家算法,在计算值函
疫情大环境下,健康管理的重要性日渐突出,体检是个人健康管理的重要组成部分,体检中的筛查项目能够在早期发现疾病,及时治疗和防预可以增加治愈的可能性。当前医疗机构提供的体检报告仍十分原始,纸质版和电子版均存在可读性不佳的问题,受检者阅读体验受限,无法全面读懂健康状况,对个人健康管理的执行造成阻碍。可视化是将人眼不敏感的数字、文字等信息图形化以提升视觉体验,是解决可读性不佳问题的有效手段。本课题从可视化
随着目前空战武器装备的迅猛发展,对于高空高速大机动目标的轨迹预测越来越占据重要的战略地位。为了解决目前存在的目标轨迹预测不足的问题,本文提出了融合小波分解(wavelet decomposition, WD)和长短期记忆(long short term memory, LSTM)网络的模型来对机动目标的轨迹进行预测。首先,通过小波分解将输入的轨迹时间序列分解为1个低频分量(CD1)和3个高频分量(
随着智能设备的普及和无线通信技术的发展,空间众包(Spatial Crowdsourcing,简称SC)引起了越来越多的关注。在现实场景中,对于复杂的任务,单个工人无法单独高质量地完成任务,此时,空间众包平台更倾向于将每个任务分配给多个工人,这种分配方式称为群组任务分配(Group Task Assignment,简称GTA)。任务分配是空间众包中一个重要的研究方向,对于空间众包中复杂的任务,需要
由于高维数据的空间分布具有簇间差异性和簇内相似性,使得对其进行聚类分析成为可能。然而高维数据结构复杂、冗余信息多,使得高维数据聚类仍然是机器学习与数据挖掘领域的难点之一。基于数据自表示的子空间聚类模型因其扎实的理论基础以及良好的性能表现,近年来引起了数据科学家们的广泛关注。但现有工作中依然存在着以下问题:一是缺乏有效的局部几何结构保持机制,导致相似性度量不准确;二是传统的子空间聚类模型一般采用单层
互联网信息时代中的大多数青年群体因长时间伏案工作和运动量的减少导致脊椎负载能力和负荷量出现平衡失调,在脊椎形态上出现不同程度的弯曲,背部呈现向后凸起并伴有脖子前倾的体态。本文以男青年轻度弓背作为切入点,探讨体表各角度档差分类、纸样放量特征点以及版型的修正方法,探索轻度弓背体男西装放量特征点以及各部位的调整量,为该人群合体型男西装品牌版型设定提供参考性的建议,在个性化定制服务模式中建立起适应轻度弓背