基于SARSA算法的足球机器人决策系统的研究与设计

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kimleetj007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Robo Cup 2D仿真机器人足球比赛平台是多智能体机器人系统研究的一种平台,研究人员可以在该平台上测试不同的机器学习算法。强化学习是机器学习算法中的重要算法之一,它允许智能体通过与环境不断地进行交互以获得最大的累积奖励回报。在一定的条件下,强化学习可以保证智能体的学习能够收敛到最优策略上。强化学习已经被广泛应用于围棋、五子棋、俄罗斯方块、虚幻竞技场等游戏当中并取得了成功,但是它在Robo Cup 2D仿真比赛中并没有被充分研究。本文将SARSA算法引入到Robo Cup 2D仿真比赛中,并对其进行改进。根据防守球员的位置和球的位置对球员智能体的状态空间进行映射,并根据空间状态的映射获得其对应的前提条件函数,作为SARSA算法进行动作选择的依据,对SARSA算法在Helios框架中进行了设计与实现。基于足球领域知识,本文提出了两种基于领域知识的奖励修正函数,包括基于球队分散度的奖励修正函数和基于足球转移距离的奖励修正函数,以使球队有更好的表现。在多智能体系统中,单智能体独立地进行强化学习得到Q表往往是稀疏的,无法代表整个系统的全局情况,为了解决这种问题,本文对多智能体共享Q表的方法进行了研究,并提出了多Q表融合算法,使得球队在比赛中获得更高的胜率。由于强化学习算法的设计需要保证Q表的收敛,本文首先对比了自适应?-greedy动作选择策略与固定?-greedy动作选择策略的收敛性,并最终选择了能够收敛的自适应?-greedy动作选择策略;然后对于奖励回报函数的设计本文对比了不同奖励值对进球得分的影响,确定了正确的奖励值,并对比了SARSA算法在引入两种奖励修正后球队的胜率,实验证明奖励修正的引入有利于提高球队胜率;最后与参加Robo Cup 2D的球队进行了多场比赛,并对比赛结果进行了统计分析,验证了本文算法的有效性。
其他文献
随着脑机接口和混合智能技术的不断发展和完善,传统基于人工观察统计和被动奖赏式的行为实验技术正被以结合计算机视觉和脑电奖赏刺激的新式训练方式所取代。同时,正是因为计
随着语义Web的不断发展,万维网中的本体数目快速增长。万维网的分散特性导致相交领域甚至是相同领域,常会存在多个异构本体。对于使用异构本体的语义Web应用程序而言,本体匹配是
本文选题来源于国家“十一五”科技支撑计划课题“勘察设计企业信息化关键技术研究与应用”子课题“基于SOA技术的勘探设计企业应用软件架构系统”。  Web服务的开放性、封
近年来,机器学习由于硬件技术的大幅提升以及算法的改进,再一次进入了新一轮的热潮。机器学习的热潮为计算机视觉的很多问题提供了解决思路和方法,而且很多解决方案已经转化
学位
随着科学技术的发展,各种新技术的运用使得芯片的成本和体积越来越小,而功能却越来越强大。MP4播放器的发展也是在这种大趋势下,从最初只能播放特定格式视频,到现在可以播放
随着计算机辅助设计技术的飞速发展,人们不仅把计算机作为一种实现设计方案的可视化工具,同时已经开始将机器智能应用在设计工作中最为重要和根本的概念设计阶段,以此激发设
Web服务是当前电子商务重要的解决方案之一,也是互联网发展的热点,其开放性、跨平台等优点引起许多研发人员的重视。传统的Web服务采用的是基于集中式的Web服务注册中心的服
大规模地形的可视化在地理信息系统、虚拟现实、灾害仿真和战场环境仿真等领域中有着重要的应用。随着遥感技术、卫星技术以及计算机技术的快速发展,人们希望能够观察到更广
GIS技术的快速发展,为海洋资源信息化提供了有利的工具。海洋GIS在海岸带开发和管理、海洋渔业、海洋环境监测评价等领域的应用获得了巨大的成功。然而,海洋环境具有动态性,而目