基于分区缓存区重放与多线程交互的多智能体深度强化学习算法

来源 :计算机学报 | 被引量 : 0次 | 上传用户：ll730520

【摘要】

：

近些年,深度强化学习(Deep Reinforcement Learning,DRL)已成为人工智能领域一个新的机器学习范式与方法论,它在许多高维度大状态的复杂空间任务中能够取得显著的成功.然而,

【作者】

：

柴来张婷婷董会王楠

【机构】

：

陆军工程大学计算机与军用软件工程教研室,东南大学仪器科学与工程学院,中国电子科技集团公司第二十八研究所

【出处】

：

计算机学报

【发表日期】

：

2021年6期

【关键词】

：

分区缓存区重放多线程交互深度强化学习多智能体信息交互行为决策

【基金项目】

：

国家自然科学基金(61802428),中国博士后科学基金(2019M651991)资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近些年,深度强化学习(Deep Reinforcement Learning,DRL)已成为人工智能领域一个新的机器学习范式与方法论,它在许多高维度大状态的复杂空间任务中能够取得显著的成功.然而,传统的深度强化学习仍然存在着学习效率低、训练时间长的问题,在多智能体的行为决策研究中难以达到理想的效果.针对这些问题,本文提出了一种基于分区缓存区重放与多线程交互的多智能体深度强化学习算法(Partitioned Buffer Replay and Multiple Process Interaction,PBR

其他文献

探寻融媒体时代碎片化节目的创意路径

近几年来,信息成为当前社会发展的重要资源。伴随着信息技术的飞速发展,信息时代全面到来,给传统媒体带来巨大的冲击。此环境下,为保证新媒体技术创新共荣,中国长沙顺利举办2

期刊

融媒体广播碎片化节目创意路径

全媒体时代网络文化传播策略

全媒体时代的到来,促使网络文化传播环境发生了深刻的变化,在此背景下,网络文化传播主体需要及时调整自身传播策略,抓住全媒体时代为网络文化传播工作带来的机遇。本文在对网

期刊

全媒体网络文化传播特点传播策略

地方政府债务与企业融资结构

基于宏观经济层面的地方政府债务数据与微观层面的企业数据系统地探索地方政府债务规模对企业融资结构的影响。实证结果表明,地方政府债务显著挤出了企业债务融资,且挤出效应

期刊

地方政府债务融资结构PPP项目投资环境

异质性环境规制、技术创新与中国工业绿色化

摘要：基于中介效应模型和2007～2016年中国省际面板数据，构建异质性环境规制、技术创新与工业绿色化的作用机理理论分析框架，并通过构建异质性环境规制指标体系和工业绿色化指标体系将异质性环境规制与技术创新驱动工业绿色化的作用机理进行实证检验。研究发现：行政型环境规制对工业绿色化起抑制作用，不存在技术创新中介效应;市场型环境规制对工业绿色化的影响存在部分中介效应，可通过技术创新“挤出效应”抑制工业绿

期刊

异质性环境规制技术创新工业绿色化中介效应

媒介融合视域下的融合文化探究

融合文化是媒介融合进程中一个需要正视的重要问题。本文主要思考在媒介融合的过程中如何促进融合文化的正向健康发展,对融合文化的概念和特征进行了梳理和提炼,指出融合文化

期刊

融合文化概念特征实质困境对策

基于分区缓存区重放与多线程交互的多智能体深度强化学习算法

其他学术论文