基于多智能体深度强化学习的交通信号控制算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zhaodehu10000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
交通拥堵是当前世界上大多数城市所面临的一个日益严重的问题,其对公众的出行和整个社会的发展都造成了一系列负面影响,如人们出行延误、车辆燃料消耗和环境污染等。在造成交通拥堵的众多因素类型中,由信号控制的交叉路口是城市交通环境中最普遍的交通拥堵瓶颈类型之一,因此交叉路口的交通信号控制是城市交通控制的一个关键部分。近年来,强化学习(Reinforcement Learning)在交通信号控制中受到广泛的关注并被深入的研究。虽然已经有一系列基于强化学习的交通信号控制算法被提出,然而受限于对交通网络的特征表示和不同智能体之间的协同控制,现有的控制算法仍然存在一些不足。对此,本文在现有研究的基础上,通过对强化学习算法深入的研究,从构建交通网络的特征表示来生成每个智能体的控制策略方向,以及协同不同智能体的控制策略等方向进行了重点研究。本文的研究工作如下:1)现有的单智能体强化学习算法不能很好地权衡偏差-方差(Bias-variance Tradeoff);此外,一些有用的关键信息,如相邻路口间的距离等被忽略了,从而可能导致智能体产生非最优的交通信号控制策略。对此,本文提出了一种去中心化的多智能体协同图算法,称为MOA3CG(Multi-step return and Off-policy Asynchronous Advantage Actor-Critic Graph)算法,该算法是基于本文所提出的单智能体强化学习算法MOA2C(Multi-step return and Off-policy Advantage Actor-Critic)和协同图。MOA3CG算法基于当前交通状况,观测历史和其他信息来制定交通信号控制策略。此外,还提出了交通信号相位控制调整矩阵,其通过考虑相邻路口之间距离来确定最优动作的选择,即最优交通信号灯的选择。实验结果表明,与其他先进的算法相比,MOA3CG算法在多个交通性能指标上均有提升。2)现有的分层深度强化学习,要么手动设计,要么从环境中获取分层间的隐目标,从而可能导致非最优的低层级策略。针对此,本文首先提出了一种学习分层目标的单智能体强化学习算法,即LSAC(Learned-goal Soft Actor-Critic)算法,该算法可自动学习最佳隐目标,然后将其用于低层级策略。其次,针对多智能体协同框架所面临的问题,即随着控制智能体数量的增加导致了状态空间快速增长,本文提出了一种半去中心化的分层控制多智能体SFM(Semi-decentralized Feudal Multiagent)框架,其通过对控制区域进行划分,并利用区域智能体来协同不同的单个智能体。结合上述的研究成果,本文提出了一种用于多路口交通信号控制的整体算法,即SFM-LSAC算法。实验结果表明,SFM-LSAC算法在多个交通性能指标上均优于目前最先进的多路口交通信号控制算法。3)现有的协同控制算法通常采用针对特定交通网络专门的多智能体设置,然而这类设置阻碍了交通信号控制策略迁移到新的交通网络中。此外,现有的算法也不能有效地表示穿越交通网络的随时间变化的车辆特征和交通网络中不同对象的异构特征。针对上述问题,本文提出了一种用于多路口交通信号控制的算法,称为IHG-MA(Inductive Heterogeneous Graph Multi-agent Actor-critic)算法。IHG-MA算法有两个特点:1)它使用本文所提出的归纳异构图神经网络(IHG)算法进行表示学习。IHG算法不仅对每个节点的异构特征进行编码,还对异构结构(图)信息进行编码。2)它还使用本文所提出的去中心化协同框架MA进行控制策略学习。MA框架采用最终的特征表示来计算Q值和控制策略,然后通过Q值和策略损失函数优化整个算法。实验结果表明,和目前最先进的算法相比,IHG-MA算法可有效地迁移到新的不同交通场景中,对多个交通性能指标均有提升。4)现有的算法通常只利用了每一时间步的交通状态信息(即短期信息),而长期信息(如每个智能体的任务)被忽略,这可能导致产生非最优的交通信号策略;此外,由于采用了描述平均源任务的共享参数,对多样性任务的处理仍然存在不足。对此,本文提出了一种多路口交通信号控制算法,称为ME-MA2C(MEta Multiagent Advantage Actor-critic)算法。ME-MA2C算法由两个部分组成:1)它使用本文提出的元学习(ME)算法进行交通网络元特征的获取。ME算法同时对短期信息和长期信息进行编码以学习元特征表示,从而有助于产生最优的交通信号策略。2)它还使用本文提出的去中心化多智能体框架MA2C进行协同策略的学习。MA2C框架利用学习到的元特征表示计算元Q值和控制策略,并通过对应的损失函数优化整个算法以获得元知识,从而产生可迁移的交通信号控制策略。实验结果表明,与其他的算法相比,ME-MA2C算法可以有效地迁移到不同的交通场景中,并实现有效的交通信号控制。
其他文献
有机单晶具有结构长程有序性、低杂质含量、高载流子迁移率和高热稳定性等优势,在电子和光电子领域有重要应用前景。有机单晶应用于有机电致发光器件(OLEDs)已经取得了一定进展,实现了红绿蓝单色和白色均匀面发光单晶OLEDs,然而亮度和效率等关键性能指标仍远远不能满足实际应用。高性能有机单晶材料的设计合成和单晶生长工艺,以及单晶器件的结构优化设计和制备工艺等都存在大量需要解决的问题。从单晶材料自身的光电
随着国务院办公厅《关于促进“互联网+医疗健康”发展的意见》的发布,加快促进了在线健康社区的蓬勃发展,各类在线健康社区如雨后春笋般涌现,正日益成为用户共享健康信息和政府推广健康服务的重要平台。但目前因在线健康社区各类医疗健康信息指数级增长而出现的信息迷航、无序及无用信息泛滥的问题,使得人们难以从海量繁杂的在线健康社区信息中获取所需要的健康知识,形成了用户对精准健康知识服务需求与在线健康社区信息供给泛
随着图像分析技术的不断发展以及在各个领域的广泛应用,基于医学影像的分割与分类以及两者在临床场景中的应用得到了科研人员的重点关注。医学影像可以呈现出人体组织与解剖结构以及病灶区域的形态特性。通过病灶区域定位、器官组织分割、特征信息提取等技术进一步对病情进行分析,给医生提供更准确、更全面和多维度的信息用于疾病的诊断。因此,医学影像分析技术的广泛应用能够更好的辅助医生的诊断工作。然而,由于医学影像模态众
合成孔径雷达(Synthetic Aperture Radar,SAR)因其具有全天时、全天候进行微波遥感成像的能力,被广泛地应用于军事侦察、资源勘探、灾害预警和地理测绘等领域。高分宽幅SAR能同时获得高分辨和宽测绘带图像,可以提高成像质量和效率,是SAR一直致力发展的目标。然而,传统的单通道SAR系统难以同时获得方位向高分辨率和距离向宽测绘带,因为方位向高分辨率需要采用较高的脉冲重复频率,而为了
自上世纪50年代以来,通过直接的高温高压实验来探究天然金刚石的形成环境和深部地球的物质组成已经成为了高压地球科学和物理学的重要方向。本文基于SPD 6×1200型六面顶压机实验平台,在金属-碳体系中分别添加了不同含量的硅酸盐(Mg0.9,Fe0.1)2Si O4、Si O2、Mg Si O3、铁铝榴石(Fe2.2Mg0.5Ca0.2Mn0.1)Al2(Si0.9Al0.1O4)3和Mg2Si3O8
红外小目标检测任务的核心思路是在一组红外图像序列中定位到目标所在的位置,从而实现后续的目标跟踪任务。在以往的研究中,以Faster R-CNN和YOLO为代表的深度学习神经网络模型得到了快速发展。与此同时,一些基于局部滤波的算法也已经被证明在提高目标检测过程中的可区分度方面非常成功。但是,这些算法通过遍历局部图像来构建补丁,而忽略了不同图像区域之间的相关性,导致目标的某些纹理信息被忽略,最终会使得
沙门菌是目前世界范围内最重要的食源性病原菌之一,能够感染人和多种动物,引起很高的发病率和死亡率,对畜牧业的发展和人类的健康构成严重的威胁。抗生素是其治疗的主要手段,但是由于药物残留及细菌耐药性等问题日益严重,急需寻找更安全、有效的沙门菌病治疗策略。肠屏障是抵御肠道病原菌入侵的重要防线,其功能的完整在防止沙门菌入侵起到重要作用。肌腱膜纤维肉瘤癌基因同系物K(v-maf avian musculoap
方向图控制是阵列信号处理领域重要的研究方向。通过设计传感器阵列的加权值,方向图控制技术可以有效提高阵列系统的检测、估计、抗干扰等性能。本文针对阵列方向图控制的理论和信号处理算法展开研究,所涉及理论包括自适应阵列理论和优化理论。现将研究工作总结如下:1.针对单方位点方向图控制时需要进行参数寻优和算法流程复杂的问题,提出一种单方位点阵列响应控制(Single-Point Array Response
硫和碳元素广泛分布于地球的各个圈层之中,确定含硫/碳化合物的存在形式以及它们与各种矿物之间的化学反应一直是凝聚态物理和地学等领域的热点研究课题。由于地球内部不同圈层的温压条件、氧化还原环境和矿物组分的复杂性,确定含硫/碳化合物的存在形式面临着巨大的挑战。针对以上问题,本文利用课题组自主发展的CALYPSO结构预测方法结合高温高压实验技术,在地球深部温压条件下,对硫和碳元素及其化合物的高压行为开展了
太赫兹波具有许多优良的特性和广泛的应用潜力。太赫兹技术研究中的首要问题是如何获取太赫兹源,基于固态器件的非线性效应将微波毫米波信号向更高频段倍频是目前获取太赫兹信号的主要技术途径之一。平面肖特基二极管由于具有低的寄生参数、高的截止频率和可室温工作等特点,一直是太赫兹固态变频(倍频、混频和检波)技术中的主流器件。太赫兹倍频二极管往往工作于高频、高功率、非线性和多谐波状态下。同时,伴随着复杂的工作条件