基于强化学习的RoboCup 2D高层抢球策略研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:fantasy2204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RoboCup,机器人足球世界杯,是一个国际性的综合赛事,其中的2D项目提出了一个复杂的实时多主体环境下的智能体决策问题。当前人工智能正处在由“单主体静态可预测环境中的问题求解”向“多主体动态不可预测环境中的问题求解”过渡的阶段,RoboCup2D问题中的智能决策研究代表人工智能的最新理论方向,同时RoboCup2D问题的解决可以助力当前信息时代的深入发展和革新。RoboCup2D问题的重点是高层决策,目前处理高层决策问题的方法有手工策略和各种人工智能的方法。传统的高层决策采用手工策略,手工策略具有很大的主观性,相关参数的选取多根据经验,不能保证很优化;同时手工策略无法考虑所有的比赛情形,对比赛情形动态变化的适应能力差,从而导致球员达成目标的效率底下。基于人工智能的方法则包括强化学习、决策树学习、神经网络学习等,它们由于具有学习能力,优于简单的手工策略。在强化学习过程中,智能体通过不断进行动作尝试并观察动作的回报,逐渐学会在各种情形下选择对其有利的动作,以使自身在与环境交互过程中获得高的累积回报值。强化学习的环境交互特点和RoboCup2D的客户-服务器交互模式一致;强化学习的连续决策特点和RoboCup2D的周期性决策特点也十分一致;并且强化学习模型对动态不确定环境的适应能力,使得强化学习方法十分适于解决RoboCup2D的高层决策问题,所以本文基于强化学习方法进行RoboCup2D问题研究。Keepaway,即小规模控球抢球训练问题,是RoboCup2D中的典型子问题。目前有人使用强化学习的方法对Keepaway的高层控球策略进行研究,优化了控球球队中持球球员的高层动作决策。然而目将强化学习应用于Keepaway问题中抢球球员的动作决策尚无文献研究。在Keepaway中,抢球任务和控球任务的任务目标相反,任务特点也有所不同,因而球队策略也存在区别。控球的特点是要求无球球员进行合理的无球跑动,同时持球球员选择合理的传球路线;抢球的特点是则要求抢球球员分工对控球球员进行压迫和逼抢。控球任务对无球球员的跑动要求相对较低,研究重点是持球球员的传球决策;而对于抢球,离球最近的抢球球员的决策比较固定(他必须上前逼抢持球球员,否则球队很难抢下球),剩下的负责拦截传球路线的抢球球员的决策则具有研究价值。本文针对Keepaway中抢球任务的上述特点,研究将强化学习应用于抢球球员高层动作决策的问题,主要做了以下工作:(1)针对传统手工策略效率低的问题,通过对Keepaway中抢球任务特点的分析,合理设计了抢球球员强化学习模型的状态空间、动作空间及回报值,并给出了抢球球员的强化学习算法,使球员的决策随着训练的进行得到优化,抢球任务完成时间缩短,抢断成功率提高。(2)针对较大规模Keepaway任务进行普通强化学习耗时太长的问题,利用策略迁移技术,通过合理设计从较小规模到较大规模Keepaway抢球任务的迁移学习方案,以及定义两个规模的任务间状态及动作空间映射,并给出抢球球员的迁移学习算法,使抢球球员在较大规模Keepaway训练中重用在较小规模Keepaway中通过普通强化学习得到的高层策略,实现迁移学习。实验表明迁移学习在训练开始时就表现出较高的决策效率,并且比从零开始的普通强化学习更快地收敛到理想的策略水平,大大缩短了训练时间。本文的研究成果表明强化学习方法在Keepaway高层抢球决策中的有效性。传统意义上,强化学习一般只应用于底层动作决策。本研究则证明了通过合理的高层回报值模型设计,强化学习也可以用来解决高层动作决策问题,体现了强化学习更广泛的应用能力。
其他文献
近年来,面部表情识别在人机交互、安全、医疗保健等领域应用广泛。目前主要通过提取几何特征和面部纹理特征并利用分类器进行表情识别。而几何特征的提取关键在于面部特征点
目前中国的公路三维空间位置表示方法基本都还是采用CAD将公路的平面和横纵断面进行二维设计的传统方式来完成路线的整体设计。这样的设计方式虽然可以将复杂的公路设计问题
近年来,云计算模式的势头愈演愈烈,其理念在制造业逐步兴起,很多计算机服务中心,把资源虚拟化为服务,并集中起来建立云服务平台。云制造的概念也应运而生。大量服务的聚集在
铁路扣件检测是维护铁路行车安全的重要任务。在高速铁路快速发展的历史背景下,铁路维护与铁路安全运营变得越来越重要,作为铁路维护的子任务,扣件自动化检测成为越来越重要
科研项目管理是高等院校与科研机构的重要管理工作内容之一。由于科研工作的特质,科研项目的管理具有较大的不确定性和变动性,一般的工作流管理模式还不能完全适应科研项目动
图像分割是图像处理和分析中的重要过程,它的输出结果直接影响着后续的处理效果.基于图论的图像分割算法由于有比较完备的数学理论基础,最近获得了广泛研究.Normalized Cut是
云计算已经成为一种崭新的IT模式,用户能够方便地通过网络按需访问可配置的计算资源。数据中心为信息服务提供运行平台,高效的云计算平台将数据中心底层的硬件资源进行虚拟化,通
随着信息时代的发展,Web应用正朝着多用户多角色协同的方向发展。在协同Web开发以及使用过程中存在异常,异常的出现不仅降低用户满意度,而且增加开发维护人员维护系统的难度
射频识别RFID(Radio Frequency Identification)是一种利用无线射频信号进行通信的非接触自动识别技术,它具有快速高效、可靠和不需要物理接触等优点,目前广泛应用于动物识别
在单核处理器时代,随着大规模集成电路技术和半导体技术的快速发展,处理器的频率和集成度的不断提高,这不但使得单芯片单核处理器的功耗剧增,而且使得其设计更加复杂。近年来