论文部分内容阅读
多Agent系统的理论和应用研究是目前人工智能领域的研究热点。RoboCup(Robot World Cup),即机器人足球比赛,是一种典型的多Agent系统,该系统具有动态环境,多个Agent之间合作与竞争并存,受限的通信带宽和随机噪音等特点。通过RoboCup这个标准的测试平台,可以深入研究和评价多Agent系统中的各种理论和算法,并将结果应用到其他领域。 强化学习是一种无监督的机器学习技术,能够利用不确定的环境奖赏发现最优的行为序列,实现动态环境下的在线学习,因此强化学习被公认为是构成智能Agent的理想技术之一。本文以强化学习中普遍采用的Q学习算法为基础,研究了RoboCup中Agent智能决策的实现方法,包括决策框架,个体技术和团队协作。本文的主要研究工作如下: 首先,针对RoboCup中Agent决策任务的复杂性特点,设计了基于分层学习的决策框架。该决策框架将Agent的决策任务按高级到低级分为多个层次,每层的决策通过相应机器学习方法实现,并以下一层的学习结果为基础。与传统的基于决策树的决策框架相比,本文设计的决策框架采用机器学习实现,避免了手工编码所带来的局限性。 其次,为了提高Agent个体技术的智能性,采用Q学习对个体技术进行离线训练,实现了踢球和带球技术。状态空间的表示是实现Q学习的关键,考虑到RoboCup中的连续状态空间,本文采用CMAC网络对状态空间进行泛化表示。 最后,针对Agent团队协作的学习问题,对单Agent的Q学习算法进行了扩展。主要思想是引入主导Agent的概念,并考虑将环境奖赏按照一定策略分配给多个Agent,实现同时学习。本文采用扩展的Q学习算法解决了RoboCup中两个典型的团队协作问题—传球决策和2vs.1问题。 本文的相关实验在RoboCup仿真比赛环境下进行,实验结果证明采用Q学习能够有效地实现Agent在复杂环境下的智能决策