基于性能势的改进平均奖赏强化学习算法研究

来源 :广东工业大学 | 被引量 : 3次 | 上传用户:woNO111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是人工智能领域内用于解决学习控制问题的一个重要方法。机器人仿真足球比赛是一个多智能体系统研究的标准问题,具有动态实时、分布式控制、不确定环境中的合作和对抗等特点,是人工智能、控制决策和智能机器人领域发展的一项重要研究。传统的强化学习算法在解决RoboCup智能体策略问题时,仍存在算法收敛速度慢,环境不确定性强、参数敏感性高等问题。针对强化学习算法存在的上述问题,本文提出了相应的改进方法。本文主要的工作和创新点如下:首先,本文对强化学习发展进程、强化学习基础理论及主要算法和性能势理论进行基本介绍,并对其在求解过程中的优缺点进行分析。其次,传统平均强化学习在求解智能体的个体技术过程中会产生求解速度过慢、局部最优等问题。为了提高球员的个体技术性能,我们采用性能势强化学习算法对球员个体踢球技术进行离线训练。通过实验验证,结果表明这一算法在这一问题上收敛速度和成功率都优于传统强化学习算法。最后,我们提出了基于性能势强化学习的多智能体协作算法。该方法不仅要解决多智能体系统状态空间的问题,还要考虑多个智能体同时学习及回报值问题。本文将改进的多智能体G学习算法运用在Keepaway平台上,体现了良好的性能表现。本文工作都是基于RoboCup2D机器人足球仿真球队GDUT_TiJi架构上实现的,在完成球队代码的实现后,我们分别参加了2013RoboCup2D Soccer Simulation WorldCup和2013年中国机器人大赛暨Robocup公开赛,并获得了理想成绩。
其他文献
随着工业的高速发展,能源问题已引起全人类的密切关注,能源危机成为人类面临的主要危机。石油作为战略能源的主要组成部分,研究提高其开采效率的方法具有重要现实意义。目前,
模量和内耗是研究材料性质的两个重要的动态力学参数,其中内耗直接反映了材料的缺陷属性。尽管微纳尺度材料模量测量理论相对成熟,但传统的内耗测量技术仅针对固体大尺度试样
学位
云存储服务发展迅速,相比传统的存储方式,云存储方便快捷、空间大、不易丢失。目前各大网络公司,设备制造公司都提供了自己的云存储服务,用户群数量极大。但最近层出不穷的云存储
随着半导体技术与电力电子功率器件的飞速发展,多相感应电机因其较低电压供电、低转矩脉动、高可靠性的优势逐渐取代了三相电机,在大功率控制领域广泛应用,尤其是多相感应电机的缺相运行和控制技术成为近几年电机控制领域的研究热点。本文以六相感应电机为研究对象,研究了电机数学模型的建立和缺相运行的控制策略,采用SVPWM调制技术建立了六相感应电机开环控制系统,在FPGA上实现系统软件的设计、编译与仿真。第一,本
网络化控制系统(NCSs)打破了传统控制系统点对点式控制的束缚,顺应了网络时代的发展规律,具备了低成本、易安装维护、能够远程控制等特点,被广泛应用至物联网、航空、导航制导和
机器人多维力传感器是机器人重要的外部传感器之一,将它安装在机器人操作手腕和脚腕处,可用来感知操作手与外部环境的接触力,是机器人感知环境力作用特征的重要信息来源。机
随着经济的高速发展,社会对能源的消耗不断增加,能源短缺的风险日益加重。与此同时,环境问题也日益凸显,传统能源煤炭、石油的使用会产生大量有害气体和温室效应气体。煤炭、
随着3GPP-LTE的快速发展,网络服务商提供无处不在的无线网络覆盖已成为可能,这样,一种新的通信类型即机器类型通信应运而生,它为人类的各种电子自动化应用提供了一个广阔的前
随着机械制造、航空航天、船舶、冶金等行业的发展,对齿轮传动的可靠性要求越来越高。为满足实际工程的需求,越来越多的齿轮需在高负荷情况下运作,由此而产生的齿轮变形有时甚至