论文部分内容阅读
多智能体系统,是人工智能研究领域的热点问题之一。多智能体系统,运用各种人工智能理论,与实际的结合,能够模拟人类分工合作的智能行为,从而推动多智能体系统研究领域的发展。机器人世界杯(RoboCup),就是为了促进分布式机器人研究发展而成立的一个世界性竞赛和学术活动。RoboCup作为人工智能和机器人领域新的标准问题,具有多智能体系统的诸多特征,是各种新理论及技术的良好实验平台。其中,RoboCup仿真2D比赛项目,以多智能体系统决策为竞赛重点,为全世界各个多智能体系统理论学者提供了一个交流的平台。 本文利用时下被广泛应用Q-learning和数据提取及分析,对RoboCup仿真2D比赛所产生的日志文件进行数据提取和分析并保存,并将保存的数据用于改进的Q-learning算法的学习训练中,最后把改进Q-learning运用到RoboCup仿真2D比赛的防守中。 RoboCup仿真2D比赛的日志文件记录着比赛所有周期内球员和球的位置坐标、速度,以及球员的体力值、视野等各种属性,几乎将整个比赛的所有细节全部记录了下来,因此,我们可以通过调用日志文件回放比赛录像得到我们想要的数据。 在RoboCup仿真2D比赛中,将球远离自己家的禁区这是最能体现一支球队的防守。因为只有将球远离我方禁区之内,才是完美的防守,也正因为如此,所有球队的设计者在设计上都会尽可能的防止对方将球带入己方禁区之内。通常防守方的策略是通过截球或者铲球来阻止对方的球进入己方禁区。这也本文研究的重点。 本文从RoboCup仿真2D比赛的日志文件中,将有关防守动作和球的位置等重要信息进行数据提取并保存,然后使用改进的Q-learning对保存的数据进行训练,最后把该算法应用到球队。根据本文的研究结果指导球队性能的改善,最后通过比赛验证了该算法的可行性。