基于强化学习的机器人足球仿真系统研究与程序设计

来源 :江苏科技大学 | 被引量 : 7次 | 上传用户:lschx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RoboCup通过提供一个标准任务来促进分布式人工智能、智能机器人技术、及其相关领域的研究和发展。RoboCup仿真比赛提供一个完全分布式控制、实时异步多智能体的环境,通过这个平台,测试各种理论、算法和Client体系结构,在实时异步有噪声的环境下,研究多智能体的对抗问题。机器人足球的核心技术是人工智能技术,它的目地是使机器具有人的智慧,具有像人一样感知环境,向环境学习的能力。本论文主要是研究RoboCup仿真组比赛。机器人足球世界杯比赛(RoboCup)仿真组比赛是在一个标准的计算机环境内进行的。比赛的方式是由RoboCup委员会提供标准的Soccer Server系统,各参赛队编写各自的Client程序,模拟实际足球队员参加比赛。论文首先分析了机器人足球RoboCup仿真系统的设计与实现,然后着重研究了阿姆斯特丹UvA-Trilearn球队的Client端系统结构、程序流程,最后在此基础上进行程序设计,主要包括增加场景策略和评估函数等方法。在高层策略上研究了基于Markov决策过程的极大极小Q-学习方法,仿真结果表明该方法能较好的解决智能体间的对抗问题。本论文完成的主要工作如下:(1)研究整个RoboCup仿真比赛平台的系统构成与运行原理,这是设计RoboCup仿真球队的基础。(2)研究仿真足球机器人的基本动作,分析动作的特点。在此基础上,设计动作评估函数和增加场景处理策略。(3)在linux系统平台下用C++程序设计完成仿真比赛客户程序的编写,并运行调试。(4)研究Markov决策过程与强化学习算法,设计了基于极大极小Q-学习方法,及其在最短路径问题和RoboCup中的应用。仿真结果表明,该算法能较好的解决多Agent间的对抗问题。
其他文献
随着现代科学技术对军事领域的全面渗透与介入,现代战争变得更加激烈和残酷。战争的节奏加快,战争的强度增强,对军人体能的要求更严、更高、更专、更精。我军在《军事训练大纲》
电容耦合式非接触电导测量技术(capacitively coupled contactless conductivity detection, C4D)是一种新的电导测量技术,具有非接触、结构简单、鲁棒性好等优点,但目前主要用于毛细管道尺度下的电导测量,在过程工业控制中还未得到很好的应用。本文旨在研究一种新的C4D方法,在常规口径管道尺度下,提高C4D系统的测量范围和灵敏度,为C4D技术在过程工业
变形技术作为计算机图形学技术的研究热点之一,在数字技术、工业设计、虚拟现实、医学可视化、人脸检测等方面都有广泛的应用。   本文以半边数据结构作为模型的数据结构基
水翼船在高速航行过程中,会受到来自外界环境的各种干扰的影响,如风、海浪等随机干扰因素。这些干扰因素会对水翼船产生不同方向的干扰力和干扰力矩,影响水翼船在航行过程中
随着我国社会现代化的发展,民航事业也获得飞速发展,传统的飞机加油方式已远远不能满足飞机加油的需求。由于飞机降落的不确定性和无序性,在同一时间段内可能没有飞机加油,也
医学图像分割是医学图像处理的一个关键技术,也是近几年来备受研究人员关注的热点问题。由于医学图像的复杂多样性,传统的图像分割技术往往不能得到令人满意的结果。形变模型凭
安全仪表系统,是应用于关键控制及安全领域,以避免事故的发生或降低事故给设备、环境和人员造成危害的一种专用系统。但目前国内尚无自主研发的安全仪表系统,与常规控制系统
目前,PET容器在制造工艺上日趋完善。但与生产线配套的国产瓶口缺陷检测设备却十分落后,使用的大部分瓶口检测设备都是从国外直接进口。国内对瓶口缺陷检测的研究处于滞后状态,
多属性决策(MADM)是决策科学的一个重要的组成部分,在工程设计、经济、管理和军事等诸多领域中有着广泛的应用。近年来,由于客观事物的复杂性、不确定性以及人类思维的模糊性,对
模态参数估计是一种实用的模态分析技术。在工程结构振动问题中,模态参数估计就是通过对结构的激励信号和响应信号的分析,估计结构的各阶模态参数。但是多数情况下只能测量响应