风险敏感的强化学习交通信号配时研究

来源 :长沙理工大学 | 被引量 : 0次 | 上传用户:wenrou1323
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,城市的交通问题已成为了制约城市经济发展的重要影响因素。如何解决交通拥堵,保障交通系统顺畅、有序地运行已成为政府工作中的重中之重。而局限于城市空间的有限、经济与环境的需求性,交通基础设施的扩建已不可能了。这时,发展智能交通来解决交通拥堵已成为了唯一的途径。总结国内外对智能交通系统的研究基础上,本文针对风险敏感理论和Q学习理论应用于交通信号控制优化进行了研究。主要研究工作包括:1.基于风险避免Q学习的在线信号配时优化模型研究首先分析了现有的信号配时强化学习模型大多是风险中立的强化学习模型,其缺点是在线学习中稳定性和鲁棒性较差,需要的运行时间较长且收敛效果不明显。为了解决存在的这些问题,本文建立了风险避免强化学习交通信号配时模型,用排队长度差作为模型的交通评价指标。在集成VISSIM-Excel VBA-Matlab的仿真平台上进行了仿真实验,分析了风险程度系数对配时方案优劣程度、收敛性的影响;与风险中立的强化学习模型进行对比分析,得出新模型在稳定性有较大改进,收敛速度较快,在交通评价指标上运行效果大体上相当的结果。针对交通信号配时优化这类问题,应采用增量风险避免强化学习方法,即风险程度系数应采用小步距递增的方式。2.基于风险寻求Q学习的在线信号配时优化模型研究考虑到交通状况的随机性、不确定性,不可能按照交通规划者的期望出现。所以有时必须充分考虑各种可能出现的情况,就算可能存在较高的风险。本文进一步构建了基于风险寻求Q学习的在线信号配时优化模型。用排队长度差作为模型的交通评价指标,为了更好地与基于风险避免Q学习的在线信号配时优化模型形成对比,各种模型建立条件都一致。再在集成VISSIM-Excel VBA-Matlab的仿真平台上进行了仿真实验,分析了风险程度系数对配时方案优劣程度、收敛性的影响;与风险中立的强化学习模型进行对比分析,得出该模型收敛速度较快。与风险避免的Q学习模型配时方案相比探索范围更广了,训练的行为个数更多了,但是配时方案的性能效果有好有坏,模型不稳定。
其他文献
全面推进城市化是当前社会变革的主题之一,无论是城乡结合部从农村向城市管理体制的转换,保护农民利益不受侵害,维护社会稳定,还是进行农村经济体制改革,确保集体经济持续增
FDI对推动我国产业结构优化有重大影响 ,本文从国内学术界对国家产业安全的争鸣入手 ,研究了国际产业保护的理论与现实依据 ,在揭示国家产业安全内涵的基础上 ,剖析了FDI对中
随着竞争的加剧,区域经济合作越来越成为我国地方政府获取竞争优势、促进地区经济发展的重要力量。然而,区域经济合作利益分享与补偿机制的缺失,直接影响到我国区域经济合作
本文针对山区常见高边中跨比连续刚构桥系统研究了该类桥梁设计和施工过程中遇到的各种关键技术问题。对连续刚构桥目前存在的常见病害问题,本文做了较为详细的论述,并提出了
针对农产品批发市场核心竞争力所涉及到的知识、能力和资源,在阐明3者之间的相互联系的基础上对农产品批发市场核心竞争力的概念进行了界定,最后指出农产品批发市场核心竞争力
海洋平台所受风浪等环境载荷及其复杂,自升式平台的桩靴与土的相互作用提供了平台站立所需的支反力和抗滑力,同时也承受了环境载荷下桩腿传递过来的弯矩。以往的研究往往过分
随着汽车普及率的快速增长,各种各样的交通问题经常发生,不仅给人们的工作和生活造成很多困扰,还导致了大量的人员伤亡和经济损失。鉴于这些交通问题的频繁发生,大量的研究人
用24种人类染色体探针对人和猕猴G显带染色体进行涂染。结果显示:人类所有染色体在猕猴的染色体组里都有其同源染色体或染色体片段。同源形式有三种:1)人的1条染色体对应于猕猴的单
在知识经济飞速发展的今天,知识对于社会的进步、经济的发展起着至关重要的作用。对企业来说,企业的竞争力和发展力很大程度上是依赖于企业对知识的获取能力、存储能力、传播
建立住房保障制度一直是我国住房制度改革的重要内容,而廉租房作为向具有城镇常住居民户口的最低收入家庭提供的租金相对低廉的普通住房,是住房保障体系的一个重要内容。目前