基于Agent博弈学习的人车混行交通建模仿真与分析

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:kerrytony
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
城市道路交通由于路况复杂、车辆众多,交通分析方面存在着巨大的需求。很多研究者对不同路况建立了相应的交通模型进行描述和仿真,大部分集中在城市主干道、高速公路交通流量的宏观分析上。然而较少有研究者关注描述个体运动规律的微观模型。在作为城市道路毛细血管的大量无信号灯十字交叉路口上,不同方向的车辆驶入时,由于存在通行利益冲突,产生了不同程度的博弈行为,进而影响了路口的通行效率,也使交叉路口成为常见的交通事故发生地。针对无信号灯十字路口的个体博弈通行现象,本文引入强化学习与博弈机制进行微观建模,以仿真的方式对问题进行研究。本文对道路环境、交通个体进行了描述和建模,将道路场景抽象封装为可计算状态特征与奖励值、更新交通个体状态的环境模块,将机动车、非机动车、行人三种交通个体抽象为强化学习智能体(以下简称Agent),引入DDPG(Deep Deterministic Policy Gradient)算法建立单Agent决策模型,引入MADDPG(Multi-Agent DDPG)算法建立多Agent博弈模型,通过离散化的交互过程从道路环境不断获得反馈,以训练Agent的微观通行决策模型。课题在单Agent情景下训练独立的通行策略,在多Agent情景下借助马尔可夫博弈模型对人车混行场景进行仿真,从而获得Agent在交通博弈下的微观模型。为支持仿真模型训练过程,本课题开发了相应的强化学习python包对仿真场景提供计算支持。一系列实验表明,采用强化学习建模的交通Agent在学习初期就表现出了一定的随机性,但随着各项奖励的引导,逐渐形成了相对固定的行为策略。而在博弈学习的过程中,随着博弈经验的积累,Agent同样倾向于进化为博弈收益更大的策略并达成新的均衡态。该过程一定程度模拟了人类的学习过程——通过不断接收环境反馈来调整自身行为,从而去除了之前的固定模型对Agent行为模式的提前假设,形成一种不依赖假设或大量数据的建模方式。由此可见,强化学习建模可以保证Agent在特定场景中经过学习后,找到相对固定的最优行为策略。因此,在交通仿真微观模型领域具有理论和实践价值。但该模型的多场景适应性、计算优化性等方面仍有进一步提高的空间。随着硬件算力提升,基于Agent的建模方式将能以更低成本模拟交通个体更多细节,达成更高的仿真精度。
其他文献
蒸散发是水循环的重要过程,是联系能量收支的纽带,对地表能量起着重要的作用。全球和区域变暖的事实已得到大多数国际学者的广泛认可。气温升高会造成蒸散量的增加,但在全球变暖趋势下,潜在蒸散量却在下降。全球变化对水分循环影响显著,在荒漠生态系统中,降水是水分循环的主要来源,蒸散则是水分循环的主要输出。研究区域降水和潜在蒸散量的特征和规律将进一步深化研究全球变化背景下区域植被与水分之间的关系。在新疆变暖与增
民办幼儿园作为学前教育体系中的重要组成部分,有效的缓解了幼儿入园难的问题,使学前教育的发展变得更加完善。民办幼儿园的教师也为教育和保育以及社会服务方面贡献了巨大的力量,拥有一支知识与技能扎实的教师队伍,无论对幼儿、幼儿园、家长来说都是必要的。但是,近年来频频发生的民办幼儿园伤害事故使教师安全素养受到广泛关注,由于教师的安全素养不足导致幼儿受伤事件屡屡出现。最大程度上保证幼儿在园的安全问题,需要教师
聚苯腈树脂是一种由苯腈单体上氰基发生加成聚合反应实现交联而制备的一类新型热固性树脂。随着相关文献不断的发表,在全球范围内吸引了大量科研人员的研究兴趣,聚苯腈的各项
聚醚砜(Polyethersulfone,PES)是目前应用最广泛的制膜材料之一,具有优良的热稳定性、机械性和尺寸稳定性等。然而由于PES本身存在较强的疏水性,使得PES膜的抗污染性差,膜的使
亚丁牦牛和拉日马牦牛均为肉乳兼用型优良地方牦牛资源,本研究对亚丁牦牛、拉日马牦牛及其它7个地方牦牛群体(九龙牦牛、金川牦牛、昌台牦牛、中甸牦牛、玉树牦牛、类乌齐牦
柔性和可穿戴电子产品的快速发展促进了对微型化和可弯曲储能设备的强烈需求。超级电容器作为重量轻、厚度薄、安全且高性能的储能装置,尤其是以石墨烯为电极材料的柔性平面微型超级电容器,受到了广泛关注。虽然近年来设计和开发石墨烯基柔性平面微型超级电容器取得了令人瞩目的进展,但其仍面临诸多困难,如简易快速且低成本的高品质石墨烯的制备方法、石墨烯电极的微加工技术以及柔性基材的选择等问题。基于以上存在的问题,本文
大位移井、水平井等特殊结构井已成为开采难度大的复杂油气藏勘探开发的重要手段。特殊结构井钻井过程中,常规“螺杆+MWD”钻进方式托压严重,机械钻速受限。水力振荡器(Agita
目的:分析延边地区食管静脉曲张套扎术联合生长抑素治疗肝硬化并发食管静脉曲张破裂出血的临床效果。方法:回顾性分析2014年1月-2018年12月延边大学附属医院收治的肝硬化并发食管静脉曲张破裂出血所致上消化道出血的患者125例,其中生长抑素治疗组为对照组66例,生长抑素联合食管静脉曲张套扎术组为治疗组59例,比较分析两组患者的一般情况,早期止血率,早、近、远期再出血率、不良反应发生率等指标,探讨生长
在各个领域中都存在着大量缤纷复杂非线性现象,研究者们通常建立非线性模型,借助数学模型来研究各领域中出现的非线性现象。非线性薛定谔方程类是描述非线性现象揭示非线性规律的典型模型之一。基于符号计算,本文解析研究了流体力学、生物物理、光纤通信等领域中的变系数非线性薛定谔类方程,计算分析这些方程的孤子解并讨论变系数对孤子的传播及孤子间相互作用的影响。本文的主要内容如下:第一章以非线性薛定谔方程和孤子相关理
目的:本研究主要是通过将桑麻杏贝汤应用于AECOPD痰热壅肺证患者的治疗中,通过相关指标观察、探索该方对于脂质过氧化反应在AECOPD发病过程中的影响,以客观的指标评价该方对于AECOPD的临床疗效及安全性,以便在临床进一步推广该方。方法:选取慢阻肺急性加重期痰热壅肺证患者80例,采用完全随机化分组,分为桑麻杏贝组40例和对照组40例。桑麻杏贝组予桑麻杏贝汤联合西医常规治疗,对照组予西医常规治疗。