共享经验的多主体强化学习研究

来源 :计算机工程 | 被引量 : 0次 | 上传用户:SAGDGJGU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
合作多主体强化学习的关键问题在于如何提高强化学习的学习效率。在追捕问题的基础上,该文提出一种共享经验的多主体强化学习方法。通过建立合适的状态空间使猎人共享学习经验,根据追捕问题的对称性压缩状态空间。实验结果表明,共享状态空间能够加快多主体强化学习的过程,状态空间越小,Q学习算法收敛越快。
其他文献
弹性模量是木材中较重要的力学参数.国标中木材横纹抗压弹性模量的测量是采用杠杆式引伸仪来测量物体的变形(GB1927~1943-91),也有学者采用电测法来测量(龚蒙,1995;李维秸,198
贵州省毕节贵耀材料科技有限公司(以下简称贵耀公司)向河流直接排污,对附近村民的生产生活造成不良影响,环保部门曾对其处罚,但该公司的排污行为仍然持续,2016年11月22日,贵
螺旋弹簧非独立悬架是一种复合式悬架,装有该类后悬架的轿车,其后桥的结构形式对后悬架的刚度特性有重要影响。通过对螺旋弹簧非独立悬架刚度分析,推导了该类悬架的后桥各主
一致性问题是分布式虚拟环境中的基本问题.该文分析和总结了分布式虚拟环境中不一致问题产生的原因和将导致的结果,提出用面向对象方法中的对象-属性-事件机制解决实体状态的