增强协作多智能体强化学习中的全局信用分配机制

来源 :计算技术与自动化 | 被引量 : 0次 | 上传用户:zhijie882008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
   摘 要:针对协作多智能体强化学习中的全局信用分配机制很难捕捉智能体之间的复杂协作关系及无法有效地处理非马尔可夫奖励信号的问题,提出了一种增强的协作多智能体强化学习中的全局信用分配机制。首先,设计了一种新的基于奖励高速路连接的全局信用分配结构,使得智能体在决策时能够考虑其所分得的局部奖励信号与团队的全局奖励信号;其次,通过融合多步奖励信号提出了一种能够适应非马尔可夫奖励的值函数估计方法。在星际争霸微操作实验平台上的多个复杂场景下的实验结果表明:所提方法不仅能够取得先进的性能,同时还能大大提高样本的利用率。
  关键词:深度学习;强化学习;多智能体系统
  中图分类号:TP181
其他文献
传道、受业、解惑”是每位教师应尽的责任与义务。作为高校教师,必须具有较高的政治意识、良好的职业道德、 渊博的文化底蕴以及深厚的知识体系,只有这样才能培训出当代社会
随着卫生部2009年4月1日关于医院消毒供应中心的最新三部分强制性行业标准正式颁布,等级医院的创建与评审,各级医院领导对消毒供应中心工作越来越重视,笔者对临床各科无菌物
微课是一种新型的教学模式,目前在教育教学活动中得到了广泛应用和认可.根据教学实践表明,将微课运用到高中政治课堂中,对于提升教学质量和促进学生自主学习能力的发展等方面
为探讨KISS-1/GPR54在大鼠睾丸中表达定位及生长期表达变化特点,进而推测KISS-1/GPR54在大鼠睾丸生长期中可能的生理功能,以60只3周龄离乳SPF级大鼠为研究对象,在第21、35、4
计划于2010年内建设的该项目是研究各种沙漠绿化新技术的研究机构.该试验中心的建设使人们看到了可再生能源的“绿洲”。将沙漠变为绿洲的计划是“撒哈拉绿化项目”的一环.对象
Rhinoceros 软件课程是产品设计专业的重要基础课程,是学生实现设计表达的重要课程。针对 Rhinoceros 软件课程中 存在的学生积极性不强、教学方法欠缺、教学效果不佳等问题,
目的探讨呼出气冷凝液pH值水平与迟发型呼吸机相关性肺炎发生及严重程度的相关性。方法选取2009年5月-2011年4月在河北医科大学第二医院呼吸科ICU住院的迟发型呼吸机相关性肺
北京理工大学研究了铝粒径、固含量和铝氧比对RDX基含铝炸药的水下爆炸性能为了研究铝粒径、固含量和铝氧比对RDX基含铝炸药的水下爆炸性能,作者制备了几种不同铝粉粒径、固
目的调查下呼吸道感染患儿多药耐药菌分布及耐药性,为临床合理使用抗菌药物提供依据。方法收集2012年1-12月医院下呼吸道感染住院患儿的咽喉深部痰液标本采用法国生物梅里埃
目的分析医院内耐甲氧西林金黄色葡萄球菌(MRSA)肺部感染的相关因素,提出相应的护理对策。方法采用病例对照研究模式,回顾性分析128例MRSA肺部感染患者临床资料;选取同病区,年