多智能体强化学习及其在足球机器人角色分配中的应用

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:liusheng123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
足球机器人系统是一个典型的多智能体系统,每个机器人球员选择动作不仅与自身的状态有关,还要受到其他球员的影响,因此通过强化学习来实现足球机器人决策策略需要采用组合状态和组合动作.本文研究了基于智能体动作预测的多智能体强化学习算法,使用朴素贝叶斯分类器来预测其他智能体的动作.并引入策略共享机制来交换多智能体所学习的策略,以提高多智能体强化学习的速度.最后,研究了所提出的方法在足球机器人动态角色分配中的应用,实现了多机器人的分工和协作.
其他文献
目的系统评价环氧化酶-2(COX-2)与胃癌及其临床病理特征的相关性。方法计算机检索Pub Med、CNKI、Wan Fang Data和VIP数据库,搜索国内外公开发表的关于COX-2与胃癌关系的病例
清代中后期直隶山西传统农业区垦殖述论李辅斌一雍乾以来的人口压力经过康熙时期的休养生息,社会经济得到了较快的恢复和发展,也促进了全国人口的增殖。特别是自康熙五十一年宣
公路隧道引道照明出现了依托护栏安装灯具进行低位照明的理念和实践。文中分析了低位照明的优缺点,并探讨了其与护栏的结合方式、照明质量及灯具要求等,得到公路隧道引道照明
阿波罗并非罗马神话中原本就有的神,而是通过希腊文化的传播逐步进入罗马的。罗马人不仅继承了希腊文化中的阿波罗崇拜,还对其进行改造使之成为具有罗马特色的阿波罗崇拜文化
目的检测胰腺癌患者ASAP1表达情况,并结合临床病理资料分析ASAP1对原发性胰腺癌临床预后的影响。方法选取2010年1月至2013年3月收治的96例胰腺癌手术患者的癌组织,采用免疫组
<正>当前美国对中国高技术产业采取的策略可以概括为"全面出击,重点突破"。全面出击是指美国利用"双反"、301条款、337条款等调查手段对中国的所有高技术产品尤其是战略性新
目的:通过对2012年在我院进行手术切除的Ⅱ、Ⅲ期结直肠癌患者的47例病理标本进行苏木精-伊红染色及免疫组织化学染色,观察干细胞表型CD44、CD133、上皮间质转化相关蛋白E-cad
阐述了佛经翻译方式所经历的从口述笔受到建立译场的嬗变过程。
旅游对东道国女性及其社会性别关系影响的研究已成为国内人文社会科学研究领域的一个热点,研究成果也较为丰富。但在理论和实践方面仍存在诸多问题。而国外该研究起步较早,主
1947年,一家普普通通的商店在爱尔兰香农机场开业,尽管它规模不大,经营品种也不多,却因减免了关税,商品价格便宜,吸引了许多等候登机的旅客。尤其是香烟和威士忌酒,成了供不
期刊