基于深度强化学习的时序差分优化算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:templedb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能领域的蓬勃发展,人工智能技术在人们日常生活中的应用日益广泛。其中机器学习日渐成为人工智能中最不可或缺的重要技术,而深度强化学习以其独特的学习模式成为了机器学习领域最炙手可热的研究方向之一。在深度强化学习中,模型的学习不需要提前采集大量标注的样本数据用于训练,也不需要考虑样本覆盖率问题,而是通过其独特的交互学习模式边学习边采集训练数据,甚至还能实现自我学习。这也使得深度强化学习在需要短时间内决策的领域中具有得天独厚的优势,包括博弈论、机器人控制、自动驾驶以及股票风险预测等。在深度强化学习中,价值函数(Value Function)扮演了非常重要的角色,这是因为价值函数是深度强化学习中智能体(Agent)做出决策的重要依据。而时序差分(Temporal Difference,TD)使得智能体不用探索整条马尔科夫决策过程(Markov Decision Process,MDP)所产生的探索轨迹,便能对价值函数进行预测估计,这意味着智能体在探索过程中便能做出决策,同时根据当前迭代过程对下一迭代过程的价值函数进行优化。此外,深度强化学习技术使得强化学习能应对庞大的连续状态空间任务,这意味着深度强化学习的应用能更贴近实际需要。虽然时序差分方法优化了预测准确性,但是由于引入了神经网络,使得神经网络在对价值函数进行预测估计时会向着误差最大的方向学习,这就加剧了时序差分方法本身的有偏估计(Biased estimate)特性,从而引起稳定性和收敛性等问题。针对时序差分方法的有偏估计特性存在的预测准确性问题,本文对不同的深度强化学习算法给出不同的时序差分优化算法。1)基于价值的深度强化学习算法,本文给出基于深度强化学习的折扣多步Q网络算法,并对算法的相关性能进行验证;2)基于策略梯度(Policy Gradient,PG)算法,本文给出基于深度强化学习的平滑多步策略梯度算法,并对算法的相关性能进行验证。1)给出基于深度强化学习的折扣多步Q网络算法(DMQN)。本文通过对基于值的算法中评价网络的时序差分更新公式分析,发现神经网络在对真实的价值函数进行拟合时,基于价值的深度强化学习在策略评价阶段的max操作,使得智能体总会往误差最大的方向学习,这样加剧了时序差分方法本来的估计不准确问题,从而引发严重的过估计问题。针对此问题,本文给出一种折扣多步学习方法,通过多步学习方式,促使智能体在每次更新前多探索几步,这样能在很大程度上缓解由预测的价值函数所带来的估计误差;此外,为了减小多步探索过程中截断收益(Truncated Return)所带来的误差,本文为截断收益增加折扣因子。经过多组对比实验的实验与结果分析,相比于DQN、Dueling DQN和Noisy DQN算法,本文给出的DMQN算法在稳定性、收敛性、过估计问题和奖励方面的性能均有明显地优势。在Pendulum-v0环境中,DMQN算法在稳定性上优于DQN、Dueling DQN和Noisy DQN算法;在收敛性上优于Dueling DQN算法;DMQN算法过估计次数占总训练步数的比例为24.74%,明显少于其它基于价值的算法;DMQN算法在训练过程中获得的奖励为-38858.20,明显多于其它基于价值的算法。2)给出基于深度强化学习的平滑多步策略梯度算法(SMPG)。本文通过对策略梯度算法分析,发现策略梯度算法中价值函数在由时序差分方法进行估计预测时同样存在估计不准确问题,并且这种估计误差会沿着策略网络继续向前传递,使得策略梯度算法的过估计累积迭代,进一步加剧时序差分方法预测的不准确性。针对此问题,一方面本文借用softmax操作对时序差分方法价值函数预测部分进行了平滑处理;另一方面,采用多步学习方法减小时序差分方法价值函数预测部分在时序差分方法中所占的比重。经过多组对比实验的实验与结果分析,相比于DDPG、TD3和SD3算法,本文给出的SMPG算法在稳定性、收敛性和奖励方面的性能均有明显地优势。在Half Cheetah-v2环境中,SMPG算法在稳定性和收敛性上明显优于TD3算法,在奖励上明显优于TD3算法和DDPG算法。在Ant-v2环境中,SMPG算法在稳定性和收敛性上明显优于TD3算法和DDPG算法,在奖励上明显优于TD3算法和DDPG算法,在过估计上明显优于DDPG算法。经过本文对比实验验证,本文提出的两个时序差分优化算法对于改进深度强化学习算法的稳定性、收敛性、过估计问题和奖励方面的优化都是有效的,并且能推动深度强化学习在博弈论、机器人控制和自动驾驶等领域的应用。
其他文献
作物秸秆含有丰富的氮磷钾,是农业生产中重要的养分资源,我国秸秆年生产总量大,但利用率不高。施用氮肥是加快秸秆分解和养分释放的关键手段,然而不同氮肥用量下秸秆残渣的动态变化过程及其微生物学机制仍不清楚。本论文以华北平原潮土为研究对象,通过田间秸秆包填埋试验和室内盆栽试验,利用固态核磁共振(13C-NMR)、同位素示踪、稳定性同位素核酸探针(DNA-SIP)、扩增子测序、宏基因组分析等分子生态学方法,
数学问题解决能力作为数学能力的核心,是整合多个认知与元认知过程以运用已有数学知识解决现实情境的能力。我国《培智学校义务教育生活数学课程标准》指出生活数学要面向全体智力障碍学生,使学生都能够接受适合的数学教育。智力障碍学生将数学问题解决能力应用在生活或工作中,能够获得更高的生活质量。改良版图示策略是一种为专门为中重度障碍学生解决数学问题开发的新方法,目前国际上对改良版图示策略的实证研究数量有限,在我
平原君,即战国之际的赵国贵公子赵胜,与信陵君魏无忌、孟尝君田文、春申君黄歇被后人并称为“战国四公子”。作为“战国四公子”之一,平原君及其事迹历来为文人墨客所青睐,其豪举养士、合楚定纵、毁家纾难等事迹流传甚广,不仅是平原君形象塑造的基石,更是后世创作者的题材宝库,为后世学者留下了广阔的解读空间。总体说来,平原君的形象从先秦到宋代经历了由简到繁的过程。其间,历代文人对平原君形象的书写与阐释并非只是简单
茎瘤芥(又名青菜头)是十字花科芸薹属芥菜种中的一类重要蔬菜,主要用于加工生产榨菜,在长江上游重庆涪陵及周边区域广泛栽培,是当地冬季主要栽培作物。随着重庆市涪陵及周边区域茎瘤芥产业的发展,茎瘤芥栽培过程中存在过量施肥、偏施氮肥、土壤酸化和环境污染等问题,这些问题不仅导致生产成本增加,也造成了茎瘤芥产量降低和品质下降,严重制约了茎瘤芥产业的健康发展。缓释肥具有养分释放慢和养分利用率高的特点,被誉为“环
本文主要以视觉语言元素的角度,着重以人物题材为切入点,分析奥地利艺术家古斯塔夫·克里姆特绘画创作中对“平面化”图式结构的建立。古斯塔夫·克里姆特(Gustav Klimt,1862-1918)是欧洲十九世纪末至二十世纪初奥地利国宝级绘画艺术大师。此时西方现代主义正处于发展初期,社会背景的巨变以及科学领域的蓬勃发展等因素促使文艺领域的现代主义发展。从克里姆特“平面化”图式结构研究中可以窥见西方现代主
现实生活中存在着大量的复杂系统,将它们抽象成复杂网络进行研究分析已成为一种有效的研究手段。在网络科学中,簇结构已被证明是复杂网络上一种普遍存在的结构特征。挖掘网络的簇结构既对揭示复杂系统中隐藏的各种信息、功能以及变化特征具有重要作用,也对理解现实世界中的各种交互行为具有一定的指导意义,例如,针对社交关系的个性化推荐、预测不同蛋白质之间的互动关系以及挖掘社会媒体的传播行为等。网络聚类算法是识别复杂网
传统的英语阅读教学重点放在语言点的分析讲解上,忽视培养学生对语篇的分析能力。学生对阅读课的兴趣不高,加上缺乏相应的语篇知识,导致学生在面对阅读时,无章法可依,信心不足。2017年版的《普通高中英语课程标准》要求学生在阅读的过程中,深化对语言的理解,重视对语篇的赏析,提升阅读理解能力。因此,本研究决定把语篇分析的阅读方法应用到实际的阅读教学中,分析其对于学生阅读理解能力和学生对阅读理解的信心和兴趣的
在人工智能技术不断发展的今天,我们已经处于信息的海洋中。但是当我们进行决策、投资时,要如何综合多个层次、多个方面的信息做出最明智、最符合当下情况的决策是一个不可避免的问题。在多源信息融合的应用中,如何处理传感器收集到的数据对于信息融合来说是至关重要的一步。首先要对收集到的传感器信息进行有针对性的处理,这样才能保证最后的融合结果是符合直觉与常理的。但是在实际的应用中由于传感器本身的故障、物理特性或者
土地承载着人类的社会活动,是人类社会发展的基础,与我们的生活息息相关,随着经济社会的快速发展,土地成为越来越重要的资源,合法保护和适当利用土地资源变得越来越重要。土地质量是土地的综合属性,体现了自然因素、人类活动等对土地的影响,通过土地质量地球化学评价可以得到土壤有益元素、有害元素等的含量水平、空间分布,以及土地质量的综合水平。了解研究区土地质量的详细情况,对土地利用规划、环境保护和可持续发展有重
从人工智能这一概念被首次提出至今,游戏博弈一直都是其最具技术和挑战性的主要研究领域和方向之一,博弈又可以划分为完全信息博弈和非完全信息博弈。完全信息博弈主要指在进行博弈时,信息都是完全可知的;非完全信息博弈的主要特征是智能体进行博弈时无法从局面信息中获得所有的信息。很多博弈都实际上是基于非完全的信息博弈模式来进行开发和对局的,例如带手牌的德州扑克等牌类,麻将,有战争迷雾的即时战略游戏等。真实世界的