多Agent强化学习及其应用研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:HoshinoYuki
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种重要的机器学习方法,其特点是通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为,并且对环境的先验知识要求很低。多Agent强化学习是传统强化学习的改进,其利用多个Agent共同协作学习,达到并行处理的效果,减少了学习时间,加快寻找最优策略的速度。本文主要工作是设计了一种分层的多Agent强化学习模型,包括任务层,工作层,通信层和决策层。指出了模型各层的作用与实现的方法。进一步,结合多核技术,给出在多核环境下模型的实现。同时介绍了相关性能指标,可对实现后的模型进行性能评价。基于分层的多Agent强化学习的模型,本文还提出了主任务分发和子任务分配多Agent Q学习方法。前者实现了基于信息融合的决策层和加锁模式通信层;后者实现了基于信息仲裁的决策层和无锁模式通信层。两种算法分别可用于解决在多核环境下机器人路径规划和多路口交通信号控制问题。在采用主任务分发多Agent Q学习方法后,机器人路径规划仿真实验结果表明相对于单Agent Q学习方法,学习速度加快,收敛时间减小,能合理利用计算资源。在采用子任务分配多Agent Q学习方法后,多路口交通信号控制仿真实验结果表明,相对于定时控制与传统Q学习控制,车辆平均等待时间和排队数减少,交通更加通畅。所有实验结果证明了所提方法的有效性。
其他文献
图形处理器(Graphic Processing Unit,GPU)是显卡最重要的组成部分。GPU的出现有效降低显卡对CPU的依赖,同时有效提高了图形处理,尤其是矩阵变换较多的三维图形的处理能力。
大数据时代,互联网每天都会产生大量的数据,利用数据挖掘算法可以从中分析出有价值的数据。在聚类分析方法中,K-means聚类算法是应用最广泛的一种划分方法。该算法简单,且收
单核苷酸多态性(SingleNucleotidePolymorphism)是指在基因组水平上由单个核苷酸的变异引起的一种DNA序列多态性,它改变了基因原来的结构和连锁率,增加了个体的患病率。目前已有
移动对象是指空间位置或范围随着时间的变化而发生变化的事物。基于交通路网的移动对象索引技术广泛应用于城市交通中车辆与行人的位置记录、运动轨迹查询、时空查询、统计管
大规模地形场景真实感建模与绘制是虚拟战场、地理信息系统、三维游戏仿真等领域的基础。随着应用的不断扩展和深入,人们对地形场景的规模、绘制速度及仿真精度提出越来越高的
当前数据存储规模日益增长,单个存储设备和存储系统的容量及寿命有限,因此需要经常在不同存储设备和存储系统之间批量迁移文件数据集。不幸的是,现有方法通过单个文件串行拷贝的
随着计算机技术的普及和发展,计算机广泛应用于一些关系到国民经济和国家安全的关键领域,如金融、电信、银行、能源、军事等,对于应用于这些关键行业的计算机系统要求具有极
随着全球一体化的不断发展,学术研究不能闭门造车,需要与国外的学术界互相交流。但作为非英语为母语的英文学术论文写作者,经常会遇到一个英文句子该怎样表达才能让国外同行
近年来,随着金融、传感器网络、股票分析、气象监测等领域的不断发展,一种流动的无限的数据引起了数据库界的广泛关注,从而使数据流管理技术成为当前的研究热点。根据数据流
随着人们日益增长的个性化需求,通用搜索引擎显然已经不能满足用户的各方面需求,由于主题式搜索引擎具有效率高、专业化、目标化、准确性高、及时性、个性化等优势,能够得到越来