模型化强化学习研究综述

来源 :计算机科学与探索 | 被引量 : 0次 | 上传用户：lelerui

【摘要】

：

深度强化学习(DRL)作为机器学习的重要分支,在AlphaGo击败人类后受到了广泛关注。DRL以一种试错机制与环境进行交互,并通过最大化累积奖赏最终得到最优策略。强化学习可分为

【作者】

：

赵婷婷孔乐韩雅杰任德华陈亚瑞

【机构】

：

天津科技大学人工智能学院

【出处】

：

计算机科学与探索

【发表日期】

：

2020年6期

【关键词】

：

深度强化学习(DRL) 模型化强化学习状态转移模型样本利用率 deep reinforcement learning(DRL)model-based rei

【基金项目】

：

国家自然科学基金,Nos.61976156,11803022,61702367,天津市教委科研计划项目,No.2017KJ034

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度强化学习(DRL)作为机器学习的重要分支,在AlphaGo击败人类后受到了广泛关注。DRL以一种试错机制与环境进行交互,并通过最大化累积奖赏最终得到最优策略。强化学习可分为无模型强化学习和模型化强化学习。无模型强化学习方法的训练过程需要大量样本,当采样预算不足,无法收集大量样本时,很难达到预期效果。然而,模型化强化学习可以充分利用环境模型,降低真实样本需求量,在一定程度上提高样本效率。将以模型化强化学习为核心,介绍该领域的研究现状,分析其经典算法,并探讨未来的发展趋势和应用前景。

其他文献

基于J2EE架构的企业项目群PMIS系统设计

该文从制造型企业项目群管理工作的实际需求出发,采用基于企业级的J2EE架构,设计了一种制造企业科技项目管理辅助平台的B/S模式解决方案,详细阐述了该方案的功能模块、系统架

期刊

J2EE项目集PMIS系统设计

雌激素经PI3K/AKT信号传导通路调控E-cadherin、a-actinin-4促进shRNA ERa/β SKOV3干扰株转移的研究

卵巢癌是女性生殖器三大恶性肿瘤之一,死亡率最高、疗效最不满意、预后最差,严重威胁妇女健康。在卵巢原发性恶性肿瘤中,60—90%是上皮性癌,随着肿瘤细胞减灭术的广泛开展,铂

学位

17-β雌二醇卵巢癌PI3K/AKTE-cadherina-actinin-4

TCF-4和NOD2在DSS诱导的Balb/c小鼠溃疡性结肠炎模型发病机制中的作用

为了研究TCF-4(T cell factor4)与NOD2(Nucleotide binding oligomerzation domain2)在溃疡性结肠炎(Ulcerative Colitis, UC)发病过程中的作用及其作用机制,本试验以健康Bal

学位

溃疡性结肠炎Balb/c小鼠葡聚糖硫酸钠TCF-4NOD2RT-PCR免疫组化

基于新型旅游方式的苏州旅游文化变革研究

苏州旅游文化有遗产丰富、管理完善、目标单一、短线为主等特点。随着新型旅游方式的不断涌现,苏州旅游业需要转变观念,努力开发新型旅游产品,打造"江南水乡"和"苏州雨巷"等

期刊

苏州旅游方式旅游文化旅游产业

论村上春树《1Q84》的叙事艺术

村上春树是日本当代著名的作家,他的小说以独有的青春式的孤独与伤感深受读者的喜爱。《1Q84》是村上继《海边的卡夫卡》后蛰伏七年之作,小说叙事恢弘,全书共分为三部,从2009

学位

村上春树《1Q84》叙事艺术

模型化强化学习研究综述

其他学术论文