基于Q学习的Agent智能决策的研究与实现

被引量 : 0次 | 上传用户:xq_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多Agent系统的理论和应用研究是目前人工智能领域的研究热点。RoboCup(Robot World Cup),即机器人足球比赛,是一种典型的多Agent系统,该系统具有动态环境,多个Agent之间合作与竞争并存,受限的通信带宽和随机噪音等特点。通过RoboCup这个标准的测试平台,可以深入研究和评价多Agent系统中的各种理论和算法,并将结果应用到其他领域。 强化学习是一种无监督的机器学习技术,能够利用不确定的环境奖赏发现最优的行为序列,实现动态环境下的在线学习,因此强化学习被公认为是构成智能Agent的理想技术之一。本文以强化学习中普遍采用的Q学习算法为基础,研究了RoboCup中Agent智能决策的实现方法,包括决策框架,个体技术和团队协作。本文的主要研究工作如下: 首先,针对RoboCup中Agent决策任务的复杂性特点,设计了基于分层学习的决策框架。该决策框架将Agent的决策任务按高级到低级分为多个层次,每层的决策通过相应机器学习方法实现,并以下一层的学习结果为基础。与传统的基于决策树的决策框架相比,本文设计的决策框架采用机器学习实现,避免了手工编码所带来的局限性。 其次,为了提高Agent个体技术的智能性,采用Q学习对个体技术进行离线训练,实现了踢球和带球技术。状态空间的表示是实现Q学习的关键,考虑到RoboCup中的连续状态空间,本文采用CMAC网络对状态空间进行泛化表示。 最后,针对Agent团队协作的学习问题,对单Agent的Q学习算法进行了扩展。主要思想是引入主导Agent的概念,并考虑将环境奖赏按照一定策略分配给多个Agent,实现同时学习。本文采用扩展的Q学习算法解决了RoboCup中两个典型的团队协作问题—传球决策和2vs.1问题。 本文的相关实验在RoboCup仿真比赛环境下进行,实验结果证明采用Q学习能够有效地实现Agent在复杂环境下的智能决策
其他文献
全球化是当今世界发展的一大趋势,是各国政治家、学者用来描述时代特征的“常用词汇”。全球化是人类社会中各个独立的实体在政治、经济和文化等方面相互联系日益紧密、相互
目的:研究黔产铁筷子茎,皮部挥发油化学成分,并进行比较分析。方法:采用05版中国药典挥发油提取法提取黔产铁筷子茎,皮部位挥发油,用气相色谱-质谱(GC-MS)联用法鉴定挥发油的
思维活动是人类认识活动的核心,思维的发生是儿童心理发展的重大质变,它标志着自我意识的深刻化和智慧化。手工制作不仅能够促进儿童感知、注意、想像及动手能力的发展,而且
发动机工作过程仿真已经成为发动机开发设计和改进工作的一个重要手段和环节。然而,对于发动机仿真研究而言,仿真模型的准确性至关重要。以4CK发动机结构参数为基础,运用一维
当前,技术创新已成为一支不可或缺的市场力量,与企业、产品、需求、价格、利润等市场力量一起相互激励,形成一个动态的演化系统。本文试图从创新产品价格演变的角度展开讨论,
资金的筹集过程是企业财务工作中的一项至关重要的内容,企业持续经营中最重要的环节是保持企业资金流的连续。影响企业的资本运作与经营活动的是企业的融资活动,特别是对于企
<正>田家英同志离开我们已经30年了.他是1966年5月23日在自己家里中南海喜福堂吊死的,时年44岁.探索他的死因,并吸取这一悲剧的教训,在今天,仍然有十分重要的现实意义.田家英
近年来,地下结构在能源、交通、城市建设和国防工程等方面获得广泛应用。由于我国大部分地区为地震设防区,地下结构的抗震设计具有重要的理论意义和实用价值,日益成为工程设
陈继儒是明代小品文一大家,也是“性灵”文学一大家。由于各种原因,陈继儒研究一直没有受到重视。笔者从《四库存目丛书》、《丛书集成新编》等大型丛书所收陈继儒的作品入手
目的:观察苈黄导痰汤对慢性阻塞性肺疾病(COPD)急性加重期的临床疗效及对血液流变学的影响,探讨其发挥疗效的可能机制。方法:采用随机、对照、单盲设计,48例入选患者按病情级别进行