【摘 要】
:
连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多
【机 构】
:
苏州大学计算机科学与技术学院,江苏省计算机信息处理技术重点实验室(苏州大学),符号计算与知识工程教育部重点实验室(吉林大学),软件新技术与产业化协同创新中心
【基金项目】
:
国家自然科学基金项目(61772355,61702055,61472262,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);苏州市应用基础研究计划工业部分项目(SYG201422)~~
论文部分内容阅读
连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,但是它们在一些连续控制任务中的表现并不是很好.为更好地解决探索问题,提出了一种基于经验指导的深度确定性多行动者评论家算法(experience-guided deep deterministic actor-critic with multi-actor
其他文献
各级检察机关在实际工作中都极为重视案件质量,关于设立案件质量管理专门机构已经成为大多数检察机关的共识,但关于具体模式目前也有着角度不同的各类尝试,和平检察院的案件
<正> 设计界正在不断受到复古潮流一浪一浪的冲洗,现代主义与怀旧主义在这股浪潮中交织涌动着。盛行于上世纪二三十年代的经典装饰风格 ArtDeco 在现代主义的妆扮下,眼下已成
企业是社会经济的细胞,企业可持续发展关乎整个社会。企业的可持续发展需要财务管理的不断革新,相应的财务评价也应与时俱进。本文在分析现行企业财务评价体系的特点及存在问
药物组成与方法 :芦荟 1 0 0g ,鱼腥草 1 0 0g ,黄连1 0 0g ,紫草 1 0 0g,白芷 1 0 0g,金银花 1 0 0g ,蜂蜡 1 0 0g ,冰片 7g ,麻油 2 0 0g。将前 6味药研末 ,加入麻油中炸枯 ,过滤去
目的探讨腱鞘巨细胞瘤的临床病理特征,对其鉴别诊断进行探讨。方法收集47例腱鞘巨细胞瘤,根据临床病理学特点、形态学观察及免疫组化染色进行分析。结果47例腱鞘巨细胞瘤患者中
价值工程作为一种先进的成本控制和管理方法,在我国还属于实践阶段。加强价值工程在市政工程造价控制的应用研究,对于提高造价控制和管理水平具有十分重要的意义。本文主要结
<正>脐部是胎儿出生后,与母体相连的脐带脱落后成的凹陷。人的脐在腹部,也叫肚脐眼儿,中医中此处穴名"神阙"。因为脐部在胎儿时连脐带,以供胎儿之营养,故被称为先天之本源,生
继发思维是写作思维过程中的第二个阶段,它与触发思维相较有着自身的特点,且和客观环境与主观意志均关系密切.
宋太祖赵匡胤通过兵变“黄袍加身”,为使赵宋不重蹈五代短命的覆辙,建国伊始就开科取士,注重对武人的抑制。杨砺是第一批通过科举进入宋政府的人,史载“太祖建隆元年取进士十