论文部分内容阅读
该文通过机器人部队(群机器人)追捕一个和多个猎物的过程来研究多个有限理性智能体在动态复杂环境下的最优合作机制与决策算法.具体研究以下几个主要方面:首先,提出多智能体追捕问题的Markov对策求解方案.针对多个并发的最优学习算法难以收敛的问题,这一部分首先引入了对策论的思想,将智能体看成是对策的局中人,将多智能体合作最优决策问题看成是多人对策,将对策的最优均衡局势作为多智能体系统的最优稳定解,从而解决了一致最优解的存在性问题.这样,通过设计合适的对策学习算法就能使对策各方达到一个共同的最优均衡,从而解决了收敛性问题.在此基础上提出了多智能体合作与协调问题的Markov对策求解思路,以此为基础,提出了追捕问题的Markov对策求解方案.其次,研究机器人部队捕获单个猎物的最优合作追捕算法.对于单猎物追捕问题,现有研究没有考虑追捕者和猎物的视野、速度、运动机会等各种条件都相同时的情况,也没有考虑团队追捕策略的最优性.针对这个问题,利用我们提出的单猎物追捕问题Markov对策求解方案和基于最佳响应动态的对策学习算法,这一部分我们首先实现了一种基于重复对策的静止猎物最优合作追捕算法.接着针对这一算法不能选择一致最优均衡的缺点,提出了一种可在对策结构未知条件下,通过重复对策进行关于一致最优均衡进行个性化协调选择的学习算法,以这个算法为核心实现了机器人部队捕获运动猎物的最优合作追捕算法.第三,研究机器人部队捕获多个猎物的最优合作追捕算法.对于多猎物追捕问题,现有的研究仅限于不同类型猎物静止和两个追捕者捕获两个猎物的简化模型这两种情况,没有研究多个不同类型猎物的随机出现、任意运动的最优追捕问题.针对这个问题,我们将多个不同类型猎物的追捕问题分解成选择猎物形成追捕联盟和各联盟分别最优追捕两步,在此基础上,这一部分我们首先提出了一种基于承诺的多猎物合作追捕算法.然而现有的对策论联盟算法和多智能体领域的联盟算法都只能形成静态联盟,这不能适应追捕这个动态的过程性任务.针对这个问题,我们提出了联盟生命值和违约金的概念,实现了允许退盟的动态联盟算法,并在改进的市场协调机制的基础上提出了一种基于动态联盟的机器人部队多猎物最优合作追捕算法.最后,实现了机器人部队包围/捕获猎物的仿真系统,该仿真系统包括有障碍物条件下的静止单猎物追捕、运动单猎物追捕和多运动猎物追捕三个主要部分.为验证算法的实际可行性,我们利用机器人足球比赛系统实现了足球机器人组成的概念性机器人部队包围/捕获猎物的由另一方足球机器人充当猎物的实际机器人部队追捕演示系统.