基于Q学习的RoboCup Agent智能策略的研究与应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:historycode
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器人世界杯足球赛(The Robot World Cup,简称RoboCup),是典型的MAS(Multi-Agent Systems,简记为MAS)问题,可以用来评价多种人工智能理论、算法和体系结构。  强化学习是一种以环境反馈作为输入的、特殊的、适应环境的、从环境状态到行为映射以使系统行为从环境中获得的累积奖赏值最大的机器学习方法。该方法不同于监督学习技术那样通过正例、反例来告知采取何种行为,而是通过试错的方法来发现最优行为策略,因此广泛应用于Agent的智能决策。目前主流的强化学习算法是Q学习算法。本文针对RoboCup中的几个具体问题,从Q学习算法、模糊Q学习算法、分层模糊Q学习算法三个方面分别阐述其在RoboCup中的Agent智能决策学习。本文的研究内容主要包括以下三个方面:  首先,针对RoboCup中守门员的防守策略问题,传统的几何计算得到的防守策略已经不能适应比赛中多变的情况。RoboCup的比赛环境是动态、复杂的开放环境,利用Q学习算法,分别离散守门员的状态空间、动作空间,制定奖赏策略函数,通过试错的方法来发现最优行为策略,实验结果证明了Q学习算法在守门员防守决策学习问题上的有效性。  其次,针对大规律强化学习的维数灾难问题,结合Q学习算法和模糊推理系统,应用模糊Q学习算法,解决Q学习处理连续的状态空间和连续的动作空间能力不足的弊端,通过学习得到一个规则库,进而为Agent的动作选择提供依据。我们将这个算法应用于RoboCup的带球问题中,实现了带球策略的优化。  最后,在模糊Q学习的基础上,提出了一种分层模糊Q学习算法,通过分层构建多层动作体系结构,利用模糊推理泛化状态空间,学习速度较为理想,我们在RoboCup中成功解决了2VS1的高层决策问题。  
其他文献
为了用户分析火箭助推器的结构与性能,方便绘制火箭助推器三维图形以及弹道轨迹仿真,且实现关于火箭助推器产品和数据的管理,研究并开发出一个功能全面的火箭助推发射系统。
20世纪90年代末兴起的光纤通道(FC)标准兼有高速网络通信和I/O通道控制的优势,支持多种可选的传输介质、传输速率、拓扑结构和高层通信协议,如今已发展成为嵌入式高速网络通信领
数字水印技术是一门新兴的数字产品版权保护安全技术,经过近年来的迅猛发展,已经成为安全领域的一个研究热点,在版权保护和信息隐藏领域有着广阔的应用前景。  基于变换域
随着信息技术的不断发展,互联网日益成为人们生活必不可少的东西,人们借助互联网可以完成新闻浏览、网上购物、观看影片、分享信息等操作,这拉近了人们之间的距离。正由于其
分布式系统可以被视为一个连接许多代理的网络。在传统的分布式系统中,代理们被假定为是服从性的,即他们遵循一定的算法。当许多计算机联结成为一个分布式系统时,系统的各个
随着学校网络服务器数量的增加,服务器管理成为网络管理发展中一个很重要的方面,对网络的运用和发展有着很大的影响,并已成为现代信息网络中最重要的研究问题之一。本论文以扬州
纤维成分自动识别是涉及图像处理、模式识别、计算机视觉及神经网络等多个领域的研究课题。鉴于传统纤维检测方法存在诸多弊端以及计算机图像处理技术的不断发展,纤维自动识
随着计算机和Internet的不断普及,电子投票的应用也越来越广泛。同时,人们对电子投票的安全性要求也越来越高。一般来说,电子投票的安全性需求包括私密性,有效性,合法性,公平
信息化加速了经济全球化,使人类生产和生活方式发生深刻变革。在信息化和经济全球化的大潮中,电子商务以高效、快捷、方便的优势,以全新的企业经营理念、手段、经营环境成为
基于计算机视觉的目标跟踪是计算机视觉领域的一个热点问题,在军事制导、智能视频监控、机器人视觉导航、人机交互、以及医疗诊断等许多方面有着广泛的应用前景。本文以智能视