论文部分内容阅读
Robo Cup 2D仿真机器人足球比赛平台是多智能体机器人系统研究的一种平台,研究人员可以在该平台上测试不同的机器学习算法。强化学习是机器学习算法中的重要算法之一,它允许智能体通过与环境不断地进行交互以获得最大的累积奖励回报。在一定的条件下,强化学习可以保证智能体的学习能够收敛到最优策略上。强化学习已经被广泛应用于围棋、五子棋、俄罗斯方块、虚幻竞技场等游戏当中并取得了成功,但是它在Robo Cup 2D仿真比赛中并没有被充分研究。本文将SARSA算法引入到Robo Cup 2D仿真比赛中,并对其进行改进。根据防守球员的位置和球的位置对球员智能体的状态空间进行映射,并根据空间状态的映射获得其对应的前提条件函数,作为SARSA算法进行动作选择的依据,对SARSA算法在Helios框架中进行了设计与实现。基于足球领域知识,本文提出了两种基于领域知识的奖励修正函数,包括基于球队分散度的奖励修正函数和基于足球转移距离的奖励修正函数,以使球队有更好的表现。在多智能体系统中,单智能体独立地进行强化学习得到Q表往往是稀疏的,无法代表整个系统的全局情况,为了解决这种问题,本文对多智能体共享Q表的方法进行了研究,并提出了多Q表融合算法,使得球队在比赛中获得更高的胜率。由于强化学习算法的设计需要保证Q表的收敛,本文首先对比了自适应?-greedy动作选择策略与固定?-greedy动作选择策略的收敛性,并最终选择了能够收敛的自适应?-greedy动作选择策略;然后对于奖励回报函数的设计本文对比了不同奖励值对进球得分的影响,确定了正确的奖励值,并对比了SARSA算法在引入两种奖励修正后球队的胜率,实验证明奖励修正的引入有利于提高球队胜率;最后与参加Robo Cup 2D的球队进行了多场比赛,并对比赛结果进行了统计分析,验证了本文算法的有效性。