论文部分内容阅读
目前,城市的交通问题已成为了制约城市经济发展的重要影响因素。如何解决交通拥堵,保障交通系统顺畅、有序地运行已成为政府工作中的重中之重。而局限于城市空间的有限、经济与环境的需求性,交通基础设施的扩建已不可能了。这时,发展智能交通来解决交通拥堵已成为了唯一的途径。总结国内外对智能交通系统的研究基础上,本文针对风险敏感理论和Q学习理论应用于交通信号控制优化进行了研究。主要研究工作包括:1.基于风险避免Q学习的在线信号配时优化模型研究首先分析了现有的信号配时强化学习模型大多是风险中立的强化学习模型,其缺点是在线学习中稳定性和鲁棒性较差,需要的运行时间较长且收敛效果不明显。为了解决存在的这些问题,本文建立了风险避免强化学习交通信号配时模型,用排队长度差作为模型的交通评价指标。在集成VISSIM-Excel VBA-Matlab的仿真平台上进行了仿真实验,分析了风险程度系数对配时方案优劣程度、收敛性的影响;与风险中立的强化学习模型进行对比分析,得出新模型在稳定性有较大改进,收敛速度较快,在交通评价指标上运行效果大体上相当的结果。针对交通信号配时优化这类问题,应采用增量风险避免强化学习方法,即风险程度系数应采用小步距递增的方式。2.基于风险寻求Q学习的在线信号配时优化模型研究考虑到交通状况的随机性、不确定性,不可能按照交通规划者的期望出现。所以有时必须充分考虑各种可能出现的情况,就算可能存在较高的风险。本文进一步构建了基于风险寻求Q学习的在线信号配时优化模型。用排队长度差作为模型的交通评价指标,为了更好地与基于风险避免Q学习的在线信号配时优化模型形成对比,各种模型建立条件都一致。再在集成VISSIM-Excel VBA-Matlab的仿真平台上进行了仿真实验,分析了风险程度系数对配时方案优劣程度、收敛性的影响;与风险中立的强化学习模型进行对比分析,得出该模型收敛速度较快。与风险避免的Q学习模型配时方案相比探索范围更广了,训练的行为个数更多了,但是配时方案的性能效果有好有坏,模型不稳定。