Robocup半场防守中的一种强化学习算法

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:kangyh123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Robocup仿真比赛是研究多Agent之间协作和对抗理论的优秀平台,提高Agent的防守能力是一个具有挑战性的问题。为制定合理的防守策略,将Robocup比赛中的一个子任务——半场防守任务分解为多个一对一防守任务,采用了基于Markov对策的强化学习方法解决这种零和交互问题,给出了具体的学习算法。将该算法应用到3D仿真球队——大连理工大学梦之翼(Fantasia)球队,在实际比赛过程中取得了良好效果。验证了采用Markov零和对策的强化学习算法在一对一防守中优于手工代码的结论。
其他文献
从序列图像中有效地自动提取运动目标区域和跟踪运动目标是自主机器人运动控制的研究热点之一。给出了连续图像帧差分和二次帧差分改进的图像HIS差分模型,采用自适应运动目标区域检测、自适应阴影部分分割和噪声消除算法,对无背景图像条件下自动提取运动目标区域。定义了一些运动目标的特征分析和计算,通过特征匹配识别所需跟踪目标的区域。采用Kalman预报器对运动目标状态的一步预测估计和两步增量式跟踪算法,能快速平
<正>~~
期刊
相干信号子空间方法(CSM)一直是宽带信号波达方位(DOA)估计的研究热点。首先建立了宽带阵列信号处理的模型,在此基础上,分析了宽带高分辨方位估计在不同聚焦矩阵下的几种CSM算法。
分布式系统中节点之间的异步消息传递常通过消息传输代理进行。消息代理节点如果不可靠,将直接影响到消息的传递。文中提出了组代理机制,利用一组节点作为消息传输代理共同传递
目前绝大多数的P2P网络系统都是以覆盖网络方式构建的。在覆盖网络中相邻的节点在底层网络中可能并不相邻甚至相隔很远,这样导致覆盖网络中两个节点间会有很大的路由延迟。只
对当前无线传感器网络的路由协议进行分类,指出其各自存在的缺陷或不足。尤其针对于LEACH及其改进的相关协议,参照无线传感器网络路由协议的需求——能量优先、以数据为中心等,
提出了一种基于本体的,综合改进的spread activation算法和语义分析的混合检索方法。通过改进的spread activation算法和本体实例之间语义关联强弱的分析,得到一组查询词的相似
利用VC++编程平台的功能强大和灵活性,并结合Matlab的运算函数丰富和编程效率高等优点实现混合编程,可以快速开发出功能强大的应用系统。文中以基于VC++和Matlab混合编程的数字信号
径向基函数网络是神经网络中一种广泛使用的设计方法。它把神经网络的设计看作是一个高维空间的曲线逼近问题。相对于其他的神经网络方法,径向基函数神经网络除了具有一般神经
针对BP神经网络中样本数据复杂和容易陷入到局部极值的不足,通过利用主成分分析法对样本数据进行简化。并采用遗传算法优化神经网络的初始权值,提出了一种改进BP神经网络泛化能