【摘 要】
:
深度强化学习(DRL)作为机器学习的重要分支,在AlphaGo击败人类后受到了广泛关注。DRL以一种试错机制与环境进行交互,并通过最大化累积奖赏最终得到最优策略。强化学习可分为
【基金项目】
:
国家自然科学基金,Nos.61976156,11803022,61702367,天津市教委科研计划项目,No.2017KJ034
论文部分内容阅读
深度强化学习(DRL)作为机器学习的重要分支,在AlphaGo击败人类后受到了广泛关注。DRL以一种试错机制与环境进行交互,并通过最大化累积奖赏最终得到最优策略。强化学习可分为无模型强化学习和模型化强化学习。无模型强化学习方法的训练过程需要大量样本,当采样预算不足,无法收集大量样本时,很难达到预期效果。然而,模型化强化学习可以充分利用环境模型,降低真实样本需求量,在一定程度上提高样本效率。将以模型化强化学习为核心,介绍该领域的研究现状,分析其经典算法,并探讨未来的发展趋势和应用前景。
其他文献
该文从制造型企业项目群管理工作的实际需求出发,采用基于企业级的J2EE架构,设计了一种制造企业科技项目管理辅助平台的B/S模式解决方案,详细阐述了该方案的功能模块、系统架
卵巢癌是女性生殖器三大恶性肿瘤之一,死亡率最高、疗效最不满意、预后最差,严重威胁妇女健康。在卵巢原发性恶性肿瘤中,60—90%是上皮性癌,随着肿瘤细胞减灭术的广泛开展,铂
为了研究TCF-4(T cell factor4)与NOD2(Nucleotide binding oligomerzation domain2)在溃疡性结肠炎(Ulcerative Colitis, UC)发病过程中的作用及其作用机制,本试验以健康Bal
苏州旅游文化有遗产丰富、管理完善、目标单一、短线为主等特点。随着新型旅游方式的不断涌现,苏州旅游业需要转变观念,努力开发新型旅游产品,打造"江南水乡"和"苏州雨巷"等
村上春树是日本当代著名的作家,他的小说以独有的青春式的孤独与伤感深受读者的喜爱。《1Q84》是村上继《海边的卡夫卡》后蛰伏七年之作,小说叙事恢弘,全书共分为三部,从2009