【摘 要】
:
通过决策transformer对基础模型进行离线预训练可以有效地解决在线多智能体强化学习采样效率低和可扩展性的问题,但这种生成预训练方法在个体奖励难以定义和数据集不能覆盖最优策略的多智能体任务中表现不佳。针对此问题,采用潜在状态分布改进决策transformer,提出了一种融合离线预训练和在线微调的多智能体强化学习算法。该算法利用自编码器和独热编码方法生成离散的潜在状态表示,保留了原始状态空间中某
【基金项目】
:
国家自然科学基金(61806221);
论文部分内容阅读
通过决策transformer对基础模型进行离线预训练可以有效地解决在线多智能体强化学习采样效率低和可扩展性的问题,但这种生成预训练方法在个体奖励难以定义和数据集不能覆盖最优策略的多智能体任务中表现不佳。针对此问题,采用潜在状态分布改进决策transformer,提出了一种融合离线预训练和在线微调的多智能体强化学习算法。该算法利用自编码器和独热编码方法生成离散的潜在状态表示,保留了原始状态空间中某些重要的信息;通过潜在的临时抽象改进生成式预训练的决策transformer,类似于数据增益的技术,在一定程度上解决了未充分覆盖状态空间的离线数据集导致的外推误差问题;采用集中训练和分散执行的方式解决在线微调时智能体的信度分配问题;通过鼓励探索的多智能体策略梯度算法在下游任务中进一步探索协同策略。最后在星际争霸仿真平台上进行实验,与基线算法相比,在较少甚至没有离线轨迹数据的任务中得分更高,泛化能力更强。
其他文献
危险化学品通常需要采用专业容器进行储存,其废包装容器属于危险废物。这类废包装容器存在环境污染风险,回收利用是最经济有效的处置方法。本文结合工程实例,研究废包装容器综合利用技术的应用。研究表明,组合工艺清洁环保,运行费用低,可以实现废包装容器的资源化、无害化与减量化处置。
目的 观察进行持续皮下胰岛素输注治疗的新诊断2型糖尿病患者采用艾塞那肽和利拉鲁肽治疗的效果。方法 120例新诊断2型糖尿病患者,以随机双盲法分为对照组、观察A组及观察B组,每组40例。三组患者均进行持续皮下胰岛素输注治疗,待血糖稳定后再实施进一步治疗,其中,对照组患者采用二甲双胍治疗,观察A组患者采用利拉鲁肽治疗,观察B组患者采用艾塞那肽治疗。对比三组患者治疗前后的血糖指标[空腹血糖(FPG)、餐
我国每年会产生大量废铁桶,上述铁桶存在生锈、变形、内部粘结化学品等现象,随意丢弃将对周边环境造成不良影响,尤其是盛装过含有危险废物的废铁桶,有可能造成严重的环境污染,必须经过妥善处理。因此,废铁桶规范的再生利用,不仅可以节约资源和能源,减少生产成本,还可以保护生态环境,具有良好的经济效益和环境效益,采用自动化水平高、处理能力大的废铁桶处理设备,有利于提高产品质量,改善工作环境,降低环境污染,节约能
<正>山东省泰安市生态环境局新泰分局日前接到群众举报,反映有人倾倒工业固体废物。分局迅速安排执法中队的万会晋、吕刚赶赴现场,查实一家外地公司外运工业固体废物约1620吨,倾倒在国道342北侧空地。经环境损害司法鉴定单位鉴定,该工业固体废物非法倾倒行为属于人为向环境中添加有害物质而超过环境的自净能力,从而形成人为危害破坏环境的行为,核算涉案固体废物倾倒行为造成的环境损失数额为518400元。
列车故障救援是地铁线路运营中对运营有较大影响的突发事件,它会导致运营中断、列车取消、大面积晚点、乘客滞留等,因此,快速、有效的列车故障救援方案对城市轨道交通线路的安全高效运营尤为重要。本文在分析列车故障救援的影响因素的基础上,总结列车故障救援过程中需遵守的基本原则,并明确列车故障救援流程中五个阶段(即故障接报阶段、救援准备阶段、救援处置阶段、退出正线阶段和救援结束阶段)的处置要点。同时,本文分析了
建立一个系统完备、符合国情需要的科技伦理教育体系是科技伦理治理的重要基础。科技伦理教育体系建设应当遵循系统发展观,可以概括为“六边形教育模型”:教育理念具有三位一体性,要秉持价值塑造、知识传授与能力培养三位一体;教育目标具有全面发展性,要树立意识和责任感、规范认知与遵循、伦理决策能力等多维目标;教育结构具有多阶递进性,既要体现贯穿生命历程的一致性,又要突出不同教育阶段的重点;教育内容具有专通结合性
基于预训练语言模型(LM)和知识图谱(KG)的联合推理在生物医学领域应用时,因其专业术语表示方式多样、语义歧义以及知识图谱存在大量噪声等问题,联合推理模型并未取得较好的效果。基于此,提出一种面向生物医学领域的可解释推理方法 DF-GNN,该方法统一了文本和知识图谱的实体表示方式,利用大型生物医学知识库构造子图并进行去噪,改进文本和子图实体的信息交互方式,增加对应文本和子图节点的直接交互,使得两个模
序列推荐旨在根据用户与项目的历史交互序列,学习用户动态偏好,为用户推荐后继可能感兴趣的项目。由于预训练模型在适应下游任务方面的优势,预训练机制在序列推荐中备受关注。现有序列推荐预训练方法忽略了现实中时间对用户交互行为的影响,为了更好地捕获用户与项目交互的时间语义,本文提出融入时间信息的预训练序列推荐模型TPTS-Rec(Time-aware Pre-Training method for Sequ