强化学习在机器人足球比赛中的应用

来源 :武汉工程大学 | 被引量 : 0次 | 上传用户:dabing_12130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器人足球是一个典型的多智能体系统,作为人工智研究领域新的标准问题,引起越来越多研究者的关注,而比赛系统中的在线学习成为改善比赛效果的主要手段。 因为强化学习不需要对环境的先验知识,是通过目标与行为之间的交互来实现的一种具有自适应能力的无监督机器学习方法,所以强化学习适于在机器人足球这一复杂动态系统中应用。为了深入研究强化学习在特定的复杂应用中的规律,克服其自身的局限,推进机器人足球技术的发展,在系统总结强化学习,特别是Q学习的历史发展、技术特点的基础上,结合机器人足球这一典型的多智能体系统,提出了强化学习在机器人足球中应用的问题。 本文以湖北省教育厅重大科研项目“基于信息融合的机器人足球比赛系统开发”为背景,综合论述了强化学习的基本模型及其实现的算法,进而在比较分析强化学习中贪心动作选择策略和ε-贪心动作选择策略的基础上,将模拟退火算法中的Mempolis准则引入到强化学习的动作选取中,提出了一种基于模拟退火的强化学习算法,较好的解决了强化学习中探索与扩张之间的平衡问题。另一方面,进行了机器人足球比赛系统的基本动作和技术动作的设计,并实现了基于角色的比赛策略。在此策略的基础上,以机器人足球比赛中的具体问题为出发点,将基于模拟退火的强化学习进行了综合应用,解决了踢球机器人路径规划和动作选择的难题。 以国际机器人足球联盟的正式比赛L鹕eLeagueSimumSot为平台,综合应用以上研究成果,进行比赛系统的开发,所开发的系统通过比赛进行了验证,在多次比赛中获奖。
其他文献
在软件系统开发的过程中,一个非常重要的工作就是按照面向对象的方法去分析所要解决的问题,也就是要清楚所要解决的问题中有多少实体,每一个实体所具有的属性,各个实体之间的
语义神经网络是一种将符号主义与联结主义两者相结合在一起来实现自然语言理解的新思想方法。它打破了传统的线性理解模式,模拟人脑的语言处理机制,把自然语言的表层语义理解
下一代互联网被称为语义Web,本体位于其核心层次。因此本体构建方法的研究十分重要。因为本体是整个世界的映射,直接研究本体的构建方法是不可能的,因此基于分治的思想,将本
码分多址(Code Division Multiple Access)技术已被公认为第三代以及将来移动通信的主流技术。它具有大容量、软切换、清晰话音质量和良好的保密性能等优点,能在一定程度上缓
OMG在2001年3月提出MDA方法学,并将其作为未来的战略发展方向。MDA是一种以模型为中心的方法学,它将建模语言用作一种编程语言而不仅仅是设计语言,支持模型的可视化、存储和
随着Internet技术的广泛深入应用和嵌入式网络应用的迅猛发展,传统嵌入式系统的开发手段和模式难以满足这种发展的新需求。如何提高嵌入式网络软件系统的开发效率,实现其软件
嵌入式系统和无线通讯技术的结合,产生了一种全新的计算模式——移动计算模式。在移动计算模式下,用户使用手持计算设备,通过无线网络实现对信息的访问,不受时间和地点的限制
阈下信道是指在基于公钥密码的数字签名中建立起来的一种隐蔽信道,除指定的接收者外,任何人均不知道其中是否有阈下消息存在。它是一种典型的现代信息隐藏技术,有着广阔的应
  本文对正面人脸图像进行特征提取和识别的研究,通过手动标定训练集人脸特征点并提取小波系数特征建立人脸弹性图,利用Hough变换、灰度积分投影、SUSAN算子和角点检测算法定
随着我国的国民经济快速发展,由于经济利益的驱使和市场管理制度的不完善,各种制假贩假现象层出不穷。因此,如何有效的防伪打假是一项长期的、艰巨的、甚至是相当复杂的任务。基