论文部分内容阅读
摘 要:随着城市扩张,交通也越来越堵塞。为了解决区域交通问题,首先需要解决单路口交通。本文对一种传统的单路口信号灯控制方法进行改进,将其与动态权重融合。仿真实验证明了本方法的有效性。
关键词:动态权重;单路口;信号控制
引言
随着城市扩张,交通也越来越堵塞。由于城市交通是城市的命脉,因此,许多国内外专家都致力于研究如何构建一个最有效的城市交通网,以达到最高的利用率。目前,已经有许多方法问世。
单路口交通是研究城市交通的基础。本文对一种单路口交通算法进行改进。将动态权重与之融合,令其在不同时段有不同的方案和表现,仿真实验表明其具有良好的控制效果。
算法
传统算法
传统以Q学习为基础,构建单路口交通信号控制方法。传统方法工作过程如下:
Step1.在t0时间,环境探测器探测当前环境为s0,s0准确描述了当前环境。环境探测器将信息传递给控制器。
Step2.根据s0,方法查询lookup表,从可能的行为集合中,选择一个行为a0。该选择依赖于环境s0与每一个可能行为之间的Q值,Q(s0,ai)。Q(s0,ai)从一定角度上量化了在当前环境s0中,选择行为ai所能得到的回报。该量化不仅包含了下一时刻,同时也对未来的所有时刻有影响。
Step3.在根据s0选择并执行了合理的a0之后,环境对a0将产生一个反馈,即回报值Q(s0,a0)。该回报值将被累积,并通过Q值更新函数对Q(s0,a0)作调整,从而影响今后在环境s0下的行为选择。
流程图如图1:
图1 单路口方法流程图
本控制方法具有两种工作模式:离线学习和在线学习。离线学习主要用于构建基本的lookup表,在线学习主要用于实际运行时的调优。
在离线学习模式下,首先为方法构建模拟环境。在模拟环境中采用偏探索的学习机制,从而全面的形成lookup表。离线学习时,模拟环境需要考虑各类交通情况,为方法提供一个完整的训练集,否则在lookup表建立后将有部分(状态,行为)对应的Q值较差,从而影响真正的运行效果。
在线学习模式则不同。在线学习模式将系统置于实际的环境中,让方法与环境进行实际交互,并从交互过程中获取经验,优化自身策略。对于在线学习模式,不必事先建立相关计算模型,因此降低了复杂性。在方法初始化直至最终上线运行的过程中,由于离线学习的主要功能为构建lookup表,因此,前期主要由离线学习模式承担基本构建工作,而当lookup表构建基本完成时,将方法转为在线学习模式并放到实际环境中,令控制和学习任务并存。
动态权重
核心思想:在本方法中,动态目标权重的计算如下,方法对交通指标持续进行监测。如果发现在最近的一段时间内,某个目标的变化趋势有大幅下降的表现,则说明该目标需要受到重视,因此提升其权重。
假设场景如下:
结论
随着家用车辆的普及,城市交通在城市扩张发展的路程中越来越重要,随之产生的城市交通管理也成了一个难题。传统交通信号控制策略无法在大中型复杂城市路网中发挥效果,新的控制策略也存在各种不足。因此,如何设计一套行之有效的交通信号控制策略对城市交通路网管理提出了新的挑战。
本文以交通信号自适应控制和强化学习为研究基础,设计了一种基于Q学习的区域交通信号控制策略,针对区域交通存在的一些如难以准确建模,路口互相关联密切等问题,首先将Q学习与自适应控制相结合,提出一套单路口控制方法,然后将其扩展至区域方法,最后对其中的权重部分进行改进,提高了准确率,最终实现了一个交通信号控制系统。
虽然本文在使用Q学习进行区域交通信号控制方面取得了一些进展,但是由于研究的时间并不充分以及搭建的交通控制系统是一个小规模的简单的原型系统,改进的控制系统还没有在实际应用中进行足够长时间的完整的测试,其中仍然有很多方面存在着一些问题,需要在今后的工作中不断改善。今后的研究工作可以在以下几个方面继续展开:
(1)本文的控制方法基于Q学习,采用的参数和指标具有较大代表性。即使如此,仍不足以完整的描述整体交通状况,因此在控制精确度上仍有提升空间。为了提高准确度,可以增加新的参数和指标,令其对交通状态的描述更加完善。
(2)控制方法中潜在的状态空间爆炸危险。在本方法中,已经采用离散化的方法对状态进行划分,保证对于大部分大中型区域路口,不会出现状态空间爆炸的问题。然而,后续为了提高方法的准确度,势必需要增加参数向量,从而令状态空间呈指数级增长。如果硬件水平不足以支撑,则极易产生状态空间爆发的问题。如何防止避免这一问题,是今后需要考虑的一个问题。(作者单位:同济大学计算机系)
关键词:动态权重;单路口;信号控制
引言
随着城市扩张,交通也越来越堵塞。由于城市交通是城市的命脉,因此,许多国内外专家都致力于研究如何构建一个最有效的城市交通网,以达到最高的利用率。目前,已经有许多方法问世。
单路口交通是研究城市交通的基础。本文对一种单路口交通算法进行改进。将动态权重与之融合,令其在不同时段有不同的方案和表现,仿真实验表明其具有良好的控制效果。
算法
传统算法
传统以Q学习为基础,构建单路口交通信号控制方法。传统方法工作过程如下:
Step1.在t0时间,环境探测器探测当前环境为s0,s0准确描述了当前环境。环境探测器将信息传递给控制器。
Step2.根据s0,方法查询lookup表,从可能的行为集合中,选择一个行为a0。该选择依赖于环境s0与每一个可能行为之间的Q值,Q(s0,ai)。Q(s0,ai)从一定角度上量化了在当前环境s0中,选择行为ai所能得到的回报。该量化不仅包含了下一时刻,同时也对未来的所有时刻有影响。
Step3.在根据s0选择并执行了合理的a0之后,环境对a0将产生一个反馈,即回报值Q(s0,a0)。该回报值将被累积,并通过Q值更新函数对Q(s0,a0)作调整,从而影响今后在环境s0下的行为选择。
流程图如图1:
图1 单路口方法流程图
本控制方法具有两种工作模式:离线学习和在线学习。离线学习主要用于构建基本的lookup表,在线学习主要用于实际运行时的调优。
在离线学习模式下,首先为方法构建模拟环境。在模拟环境中采用偏探索的学习机制,从而全面的形成lookup表。离线学习时,模拟环境需要考虑各类交通情况,为方法提供一个完整的训练集,否则在lookup表建立后将有部分(状态,行为)对应的Q值较差,从而影响真正的运行效果。
在线学习模式则不同。在线学习模式将系统置于实际的环境中,让方法与环境进行实际交互,并从交互过程中获取经验,优化自身策略。对于在线学习模式,不必事先建立相关计算模型,因此降低了复杂性。在方法初始化直至最终上线运行的过程中,由于离线学习的主要功能为构建lookup表,因此,前期主要由离线学习模式承担基本构建工作,而当lookup表构建基本完成时,将方法转为在线学习模式并放到实际环境中,令控制和学习任务并存。
动态权重
核心思想:在本方法中,动态目标权重的计算如下,方法对交通指标持续进行监测。如果发现在最近的一段时间内,某个目标的变化趋势有大幅下降的表现,则说明该目标需要受到重视,因此提升其权重。
假设场景如下:
结论
随着家用车辆的普及,城市交通在城市扩张发展的路程中越来越重要,随之产生的城市交通管理也成了一个难题。传统交通信号控制策略无法在大中型复杂城市路网中发挥效果,新的控制策略也存在各种不足。因此,如何设计一套行之有效的交通信号控制策略对城市交通路网管理提出了新的挑战。
本文以交通信号自适应控制和强化学习为研究基础,设计了一种基于Q学习的区域交通信号控制策略,针对区域交通存在的一些如难以准确建模,路口互相关联密切等问题,首先将Q学习与自适应控制相结合,提出一套单路口控制方法,然后将其扩展至区域方法,最后对其中的权重部分进行改进,提高了准确率,最终实现了一个交通信号控制系统。
虽然本文在使用Q学习进行区域交通信号控制方面取得了一些进展,但是由于研究的时间并不充分以及搭建的交通控制系统是一个小规模的简单的原型系统,改进的控制系统还没有在实际应用中进行足够长时间的完整的测试,其中仍然有很多方面存在着一些问题,需要在今后的工作中不断改善。今后的研究工作可以在以下几个方面继续展开:
(1)本文的控制方法基于Q学习,采用的参数和指标具有较大代表性。即使如此,仍不足以完整的描述整体交通状况,因此在控制精确度上仍有提升空间。为了提高准确度,可以增加新的参数和指标,令其对交通状态的描述更加完善。
(2)控制方法中潜在的状态空间爆炸危险。在本方法中,已经采用离散化的方法对状态进行划分,保证对于大部分大中型区域路口,不会出现状态空间爆炸的问题。然而,后续为了提高方法的准确度,势必需要增加参数向量,从而令状态空间呈指数级增长。如果硬件水平不足以支撑,则极易产生状态空间爆发的问题。如何防止避免这一问题,是今后需要考虑的一个问题。(作者单位:同济大学计算机系)