面向部分可观测环境的值迭代深度网络模型研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:greenecho
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,深度强化学习已经成为人工智能领域的一个新的研究热点。目前,深度强化学习已经成功应用于游戏策略、机器翻译、文本生成、目标追踪等多个领域。然而,现有的深度强化学习模型大多用于解决环境状态完全可观测的任务,而关于部分可观测环境下的深度强化学习的研究仍旧很少。同时,现有的模型只是利用深度神经网络的泛化能力拟合值函数或策略函数,这类免模型的方法能够获得较好的性能,却常常忽略任务的结构信息。为了充分利用这种结构信息,本文提出了一种基于值迭代的深度强化学习算法,有效地结合了免模型学习和有模型规划的优势。受ADRQN模型的启发,该模型使用两个独立的递归神经网络分别完成信念状态的计算和Q值的迭代,并对输出进行整合用于动作的选择。与信念状态的计算相似,用于迭代Q值的递归神经网络结构以隐藏状态作为Q值的嵌入式表示,同时通过梯度回传,使得模型学习潜在的马尔科夫决策过程的结构信息,进而完成Q值的迭代。其次,本文对ADRQN模型中动作观察对耦合输入方式的次优性做了简要分析。为了规避由于观察和动作输入形式不同而造成的次优性,本文对模型的输入结构进行了简单修改,并应用于标准的POMDP任务上。与ADRQN模型相比,本文提出的模型在多个导航任务上均获得了更好的性能,从而验证了本文提出的改进方法的有效性。
其他文献
金属成形的发展正在向着数字化方向发展。本研究主要目的是把PCr Ni3Mo V钢的热成形行为建模、数值模拟仿真和实验室研究集成在一起为其数字化服务。本文在Gleeble-1500D热模拟试验机上对PCr Ni3Mo V钢进行热压缩试验,变形温度为950~1200℃,应变速率为0.01~10 s-1和变形程度为60%,获得不同压缩条件下的流变应力曲线,结果表明:应变速率为0.01、0.1 s-1时曲
由于如今市场经济发展快速,许多混凝土企业受高利润和高回报率的影响也随之发展起来,特别是针对市场经济发达的地区。同时商砼企业在迅速发展的过程中也面临着较大的竞争压力。一方面,商品混凝土企业数量的快速增长出现了供大于求的情况,另一方面,由于某些企业内部各方面的成本控制做得不足,导致对外销售的混凝土价格并不具有竞争优势。如原材料的采购成本随着市场信息价的波动不稳定以及库存管理水平较低等给企业带来了额外的
计算机与网络技术发展迅速,各领域信息化建设也在不断进行中。高校数字化校园建设工作早已提上日程,但是随着建设过程的不断迈进,不免会出现一些新问题,制约着校园信息化的发
有限元模型修正分为确定修正和不确定修正,其中不确定修正同时考虑到参数和响应的不确定性,因此在悬索桥有限元模型修正中运用较广。悬索桥在大跨复杂桥梁结构中柔性最大,其结构参数众多,且参数的变化易引起结构内力、动力特性的较大变动,使得悬索桥结构分析存在计算困难,且在悬索桥有限元模型修正中尤为突出。因此,如何提升悬索桥有限元模型不确定修正过程中采样、回归和优化过程的效率与精度,是现阶段值得深入研究的桥梁工
随着光电信息、生物工程、航空航天及军用武器等领域的发展,光学成像系统已经走向轻量化、精密化,对小口径非球面镧系玻璃镜片需求巨大。为了满足市场需求,高效率、高精度的精密热压成型技术将成为光学镜片成型制造领域的关键技术。然而,现阶段的精密热压成型技术还存在一些缺陷,导致成型镜片精度不高、光学性能无法满足预期要求等。基于此,本文进行了小口径非球面镧系玻璃热压成型的仿真与实验研究,主要研究内容如下:(1)
机器人学是一门将传感、人工智能等复杂多领域交互在一起的学科,不仅涉及人类的方方面面并代表着一个国家前沿科技的领先水准。本文将在贝叶斯理论基础上对移动机器人SLAM问
营运资金在企业的财务管理中是必不可少的存在,他就像人体中的血液,在企业生产经营活动中无处不在。企业经营的风险和收益都可以通过营运资金的变化进行衡量。在当今的经济发展趋势下,传统的营运资金管理已经难以适应企业的发展。为了更加有效的配置资源,提高资金使用效率,实现效益最大化,许多企业开始关注价值链视角下的营运资金管理,并研究这一管理方法的实际应用。本文首先回顾了价值链视角下营运资金管理的研究现状,并对
认知行为优化算法(COA)是模拟人工蜂群在蜜蜂进行分工合作和信息交流的行为而提出的一种新兴仿生群智能优化算法,该算法具有结构简单,稳定性较强和易于理解等特点。该算法受
经过近十年的深入研究,表层嵌贴(Near Surface Mounted,NSM)预应力碳纤维增强复合材料(Carbon Fiber Reinforced Polymer,CFRP)加固钢筋混凝土梁已成为目前老化基础设施结构修复和改造的主流解决方案。然而在不设置永久性锚具的情况下,加固结构容易在CFRP粘结端部发生脆性的剥离破坏,导致结构在达到预期承载力前过早失效。目前国内外的预应力NSM CFR
作为一类自动制造系统,柔性制造系统是由计算机数控机床与物料传输系统组成的,可以高效地制造中小型批量产品的计算机控制系统。然而,由于系统中的资源竞争,导致了死锁的发生