基于深度强化学习的交通灯控制优化研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:csnzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
交通灯在控制道路车辆通行上起着至关重要的作用。现阶段城市道路的交通灯多采用固定配时,固定相位变换的控制策略,难以满足不同的车流情况。设计出能够根据路口车流情况实时调整交通灯变换的控制方案成为智能交通领域的研究热点之一。而城市路口车流具有动态变化性,难以直接对其展开研究。为了能够设计出一种合适的交通灯动态控制方案,引入深度强化学习技术,将路口交通灯控制问题抽象成强化学习模型,分别针对单路口和路网采取不同的深度强化学习算法以实现对交通灯的协调控制。本文的主要研究内容如下:(1)针对单路口交通灯控制的深度强化学习算法存在过估计和收敛速度慢等问题,提出了一种基于D3QN算法的交通灯控制模型;考虑到处于不同状态的车辆对交通灯控制产生的影响,提出了一种车辆信息矩阵作为神经网络的输入;定义了新的奖励函数来更加准确地反映智能体采取动作的好坏。对算法和改进点在不同车流下进行了实验。实验结果表明,本文提出的D3QN算法和改进点均能够减小路口平均队列长度,验证了其有效性。(2)针对路网中多个路口之间交互的复杂性问题,将单智能体强化学习算法扩展到多智能体中。采用集中式训练,分布式执行的MADDPG算法,集中式训练Critic网络使每个智能体在决策过程中能够考虑到其他智能体,分步式执行使每个智能体都能够独立地做出决策。针对算法模型训练较慢的问题,引入并行优先经验回放机制(PPER)来提高训练样本的利用效率。以四路口路网交通灯控制为对象进行了实验。实验结果表明,本文提出的PPER-MADDPG算法能够减小路网整体队列长度,验证了其有效性。(3)搭建了一个基于深度强化学习的交通模拟系统,使用Python编程语言实现本文相关算法。该系统提供了一个交通灯控制的可视化界面并能够存储训练过程中产生的数据,为研究交通灯控制问题提供了一个模拟实验平台。
其他文献
本文总结了作者近年来在多相粘弹性流体方面的研究进展,结合微流控实验[Xie et al.,Phys.Rev.Lett.,2022]和格子Boltzmann(LBM)数值模拟[Xie et al.,Phys.Rev.Fluids.,2020],研究了非润湿性液滴在粘弹性流体中的流动特征,发现了液滴在粘弹性流体中的特殊振荡现象。设计了典型的扩张-收缩-扩张微流控芯片通道,实验分别对比了液滴被牛顿流体和
会议
相场方法是基于能量变分理论提出的一种多相流界面捕捉方法,具有坚实的理论基础,可以引入多物理过程与界面运动的耦合作用,而且能够描述复杂界面拓扑变化,在多相流数值研究领域得到了广泛的应用。但是,由于Cahn-Hilliard方程中高阶非线性项的存在,基于相场理论发展精确、高效且满足长时间数值计算精度和效率要求的多相流动数值方法依然是计算流体力学领域的重要挑战。我们考虑界面处相变量的扩散对质量、动量输运
会议
[目的]家庭农场作为新型农业经营主体的核心,探究以“淘宝村”为典型模式的农村电子商务集聚对家庭农场的影响,对于发展新型农村集体经济具有重要意义。[方法]本文基于2015-2020年中国长三角地区城市面板数据,使用固定效应模型、空间计量模型和中介效应模型等方法,结合集聚外部性理论实证研究了淘宝村集聚对家庭农场的影响及作用路径。[结果]淘宝村集聚对家庭农场的发展有显著的促进作用并且存在正向空间溢出效应
期刊
随着海洋油田的不断开发,含水量不断增加,很多油田已经进入了超临界含水阶段。随着含聚合物油水分离以及海洋油田油水分离等问题的出现,促使了对油水分离的研究。在聚驱区块,由于其含高聚物,使其组成复杂,容易发生乳化,并表现出非牛顿流体性质,而由于海上生产平台空间较小,分离效率较高,分离困难较大,已成为制约其推广的技术瓶颈。为此,本文以海上采油平台为背景,重点研究适用于聚驱采出液处理的旋流分离装置,分析非牛
会议
《诗经·大雅》是内容丰富的先秦史料,其中的《生民》、《公刘》等诗篇记录了周民族早期的历史,从这些诗篇中我们不仅能够清晰地感知到先周是一个崇拜英雄的时代,而且还能知道先周是一个韬光养晦、由弱变强、社会制度不断变革的时代。
期刊
在现金管理方法中应用了数据缓存,通过此方法能够最大限度的保证银行现金管理业务的稳定运行。对于邮政银行现金管理方法而言,其现阶段的用户级别已达到了海量数据的规模,不可避免的会导致数据检索或数据处理出现延时现象。而现金管理方法却对事务的响应、事务的处理时效要求很高。所以,需要应用海量数据缓存技术。论文的主要工作如下:(1)基于规则引擎的海量数据处理。如果此缓存策略是基于邮政银行现金管理方法的原始数据进
学位
<正>抑郁症是一种常见的情感性精神疾病,主要表现为情绪低沉、兴趣缺失、思维迟钝、食欲不振、失眠少睡等症状,甚至伴有自杀倾向[1,2]。应激是抑郁症产生的重要危险因素,长期慢性应激会引起神经递质紊乱、炎症因子增多、神经可塑性及相关信号通路改变、肠道菌群失调和线粒体结构功能的异常,加快抑郁症的发生发展[3]。目前以氟西汀、帕罗西汀等5-羟色胺(HT)再摄取抑制剂为代表的西医临床抗抑郁药物,靶点明确,疗
期刊
为提高长征二号丁运载火箭控制系统的可靠性,进一步优化控制系统箭上产品配置,消除单点及薄弱环节,对控制系统开展冗余改进技术研究;针对该型号运载火箭控制系统冗余改进的关键技术、系统方案进行了专题分析,系统方案合理可行,为控制系统工程的实施提供了一定的参考价值。控制系统冗余改进技术的应用,提高了全箭飞行可靠性和任务适应性,以及入轨精度,减轻了火箭末子级的质量,增大了运载火箭的运载能力,为后续在运载火箭中
期刊
<正>随着国家对房地产行业“三道红线”等一系列调控政策的出台,房地产市场持续走弱。虽然在3年疫情后,国家逐步对房地产行业予以各项扶持,但由于市场的不确定性以及购房群体观望氛围浓厚,导致楼市成交低迷乃至国内大部分城市房价大幅下跌,项目投资风险加剧。面对震荡的房地产市场,为了尽可能降低投资风险,房企对项目投资测算要求更加严格,投资测算的严谨性、准确性对整个投资项目的成败至关重要。本文从搭建房地产项目投
期刊
针对不可压缩、非混溶的复杂多相流问题,提出一种广义守恒相场简化多相流格子Boltzmann方法。此方法运用早前发展的简化多相流格子Boltzmann方法(simplified multiphase lattice Boltzmann method,SMLBM),通过采用带有拉格朗日算子的广义守恒相场方程来控制界面的演化并确保每个相的体积和总质量守恒。此外,在单松弛格子Boltzmann方法框架内,
期刊