强化学习在机器人足球比赛中的应用

来源 :武汉工程大学 | 被引量 : 0次 | 上传用户：dabing_12130

【摘要】

：

机器人足球是一个典型的多智能体系统，作为人工智研究领域新的标准问题，引起越来越多研究者的关注，而比赛系统中的在线学习成为改善比赛效果的主要手段。因为强化学习不需要

【作者】

：

闵锋

【机构】

：

武汉工程大学

【出处】

：

武汉工程大学

【发表日期】

：

2005年期

【关键词】

：

强化学习机器人足球多智能体

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

机器人足球是一个典型的多智能体系统，作为人工智研究领域新的标准问题，引起越来越多研究者的关注，而比赛系统中的在线学习成为改善比赛效果的主要手段。因为强化学习不需要对环境的先验知识，是通过目标与行为之间的交互来实现的一种具有自适应能力的无监督机器学习方法，所以强化学习适于在机器人足球这一复杂动态系统中应用。为了深入研究强化学习在特定的复杂应用中的规律，克服其自身的局限，推进机器人足球技术的发展，在系统总结强化学习，特别是Q学习的历史发展、技术特点的基础上，结合机器人足球这一典型的多智能体系统，提出了强化学习在机器人足球中应用的问题。本文以湖北省教育厅重大科研项目“基于信息融合的机器人足球比赛系统开发”为背景，综合论述了强化学习的基本模型及其实现的算法，进而在比较分析强化学习中贪心动作选择策略和ε-贪心动作选择策略的基础上，将模拟退火算法中的Mempolis准则引入到强化学习的动作选取中，提出了一种基于模拟退火的强化学习算法，较好的解决了强化学习中探索与扩张之间的平衡问题。另一方面，进行了机器人足球比赛系统的基本动作和技术动作的设计，并实现了基于角色的比赛策略。在此策略的基础上，以机器人足球比赛中的具体问题为出发点，将基于模拟退火的强化学习进行了综合应用，解决了踢球机器人路径规划和动作选择的难题。以国际机器人足球联盟的正式比赛L鹕eLeagueSimumSot为平台，综合应用以上研究成果，进行比赛系统的开发，所开发的系统通过比赛进行了验证，在多次比赛中获奖。

其他文献

基于建模工具的通用类生成器的研究

在软件系统开发的过程中,一个非常重要的工作就是按照面向对象的方法去分析所要解决的问题,也就是要清楚所要解决的问题中有多少实体,每一个实体所具有的属性,各个实体之间的

学位

类建模工具UML类生成器代码生成器

基于语义神经网络的深层语义的计算

语义神经网络是一种将符号主义与联结主义两者相结合在一起来实现自然语言理解的新思想方法。它打破了传统的线性理解模式,模拟人脑的语言处理机制,把自然语言的表层语义理解

学位

语义神经网络神经元深层语义自然语言理解知识库多线程

一种基于百度百科的中文领域本体构建方法

下一代互联网被称为语义Web,本体位于其核心层次。因此本体构建方法的研究十分重要。因为本体是整个世界的映射,直接研究本体的构建方法是不可能的,因此基于分治的思想,将本

学位

本体领域本体百度百科本体构建

基于禁忌搜索的多用户检测方法

码分多址(Code Division Multiple Access)技术已被公认为第三代以及将来移动通信的主流技术。它具有大容量、软切换、清晰话音质量和良好的保密性能等优点,能在一定程度上缓

学位

码分多址多用户检测多址干扰远近效应计算智能禁忌搜索集中性和多样性搜索群智能计算复杂度

MDA中模型组合重构技术的研究

OMG在2001年3月提出MDA方法学,并将其作为未来的战略发展方向。MDA是一种以模型为中心的方法学,它将建模语言用作一种编程语言而不仅仅是设计语言,支持模型的可视化、存储和

学位

MDA模型重构UMLMOF组合重构OptimalJ

嵌入式Web应用软件体系结构和设计模式的研究与应用

随着Internet技术的广泛深入应用和嵌入式网络应用的迅猛发展,传统嵌入式系统的开发手段和模式难以满足这种发展的新需求。如何提高嵌入式网络软件系统的开发效率,实现其软件

学位

嵌入式系统嵌入式Web服务器多层体系结构MVC设计模式可复用性

DBS多版本并发的移动数据库的设计与实现

嵌入式系统和无线通讯技术的结合,产生了一种全新的计算模式——移动计算模式。在移动计算模式下,用户使用手持计算设备,通过无线网络实现对信息的访问,不受时间和地点的限制

学位

移动计算数据库数据复制同步技术冲突多版本并发

数字签名中的阈下信道研究

阈下信道是指在基于公钥密码的数字签名中建立起来的一种隐蔽信道,除指定的接收者外,任何人均不知道其中是否有阈下消息存在。它是一种典型的现代信息隐藏技术,有着广阔的应

学位

信息隐藏数字签名算法(DSA)椭圆曲线数字签名(ECDSA)ESIGN 数字签名阈下信道

基于弹性图匹配的正面人脸识别技术研究

　　本文对正面人脸图像进行特征提取和识别的研究，通过手动标定训练集人脸特征点并提取小波系数特征建立人脸弹性图，利用Hough变换、灰度积分投影、SUSAN算子和角点检测算法定

学位

模式识别人脸识别弹性图特征提取小波变换SUSAN算子拓扑图

防伪标签复合识别的研究与实现

随着我国的国民经济快速发展，由于经济利益的驱使和市场管理制度的不完善，各种制假贩假现象层出不穷。因此，如何有效的防伪打假是一项长期的、艰巨的、甚至是相当复杂的任务。基

学位

防伪标签条码纤维条OCR自动识别复合识别系统条码识别系统图象处理

强化学习在机器人足球比赛中的应用

其他学术论文