论文部分内容阅读
机器人世界杯足球赛(The Robot World Cup,简称RoboCup),是典型的MAS(Multi-Agent Systems,简记为MAS)问题,可以用来评价多种人工智能理论、算法和体系结构。 强化学习是一种以环境反馈作为输入的、特殊的、适应环境的、从环境状态到行为映射以使系统行为从环境中获得的累积奖赏值最大的机器学习方法。该方法不同于监督学习技术那样通过正例、反例来告知采取何种行为,而是通过试错的方法来发现最优行为策略,因此广泛应用于Agent的智能决策。目前主流的强化学习算法是Q学习算法。本文针对RoboCup中的几个具体问题,从Q学习算法、模糊Q学习算法、分层模糊Q学习算法三个方面分别阐述其在RoboCup中的Agent智能决策学习。本文的研究内容主要包括以下三个方面: 首先,针对RoboCup中守门员的防守策略问题,传统的几何计算得到的防守策略已经不能适应比赛中多变的情况。RoboCup的比赛环境是动态、复杂的开放环境,利用Q学习算法,分别离散守门员的状态空间、动作空间,制定奖赏策略函数,通过试错的方法来发现最优行为策略,实验结果证明了Q学习算法在守门员防守决策学习问题上的有效性。 其次,针对大规律强化学习的维数灾难问题,结合Q学习算法和模糊推理系统,应用模糊Q学习算法,解决Q学习处理连续的状态空间和连续的动作空间能力不足的弊端,通过学习得到一个规则库,进而为Agent的动作选择提供依据。我们将这个算法应用于RoboCup的带球问题中,实现了带球策略的优化。 最后,在模糊Q学习的基础上,提出了一种分层模糊Q学习算法,通过分层构建多层动作体系结构,利用模糊推理泛化状态空间,学习速度较为理想,我们在RoboCup中成功解决了2VS1的高层决策问题。