论文部分内容阅读
交通信号控制是缓解交通拥堵、提高出行效率和减少安全事故的重要手段。固定配时方法是交通信号控制系统常用的控制算法,其缺点在于难以根据实时的交通流实现红绿灯信号的自由切换,增加不必要的等待时间。因此寻求更加高效、智能的交通信号控制方法愈加受到研究者的关注。由于交通控制系统是一个复杂的不确定系统,并具有非线性结构,传统的自适应方法虽然颇有成效,但还是难以适应多变的交通流,对交通模型依赖严重。而强化学习方法不需要建立交通模型,而是通过路口控制器与交通环境的不断交互与学习,实现控制方案的改善。本文将交通信号控制系统当成由单个交叉口信号控制器Agent组成的多智能体系统,并引入强化学习方法实现城市路网交通信号控制。对路网的最小控制单元,即单交叉路口的研究是实现区域交通控制的基础。当前科技的迅速发展使得交通数据的收集更加便捷,为了充分使用收集的交通数据,引入深度强化学习算法实现交叉口的实时控制,并提出了一种新的状态空间设计方法。解决了传统强化学习方法难以应用到状态空间较大或连续系统中的弊病。并使用深度强化学习算法在微观交通仿真软件SUMO中对单个路口进行仿真,实验结果验证了该方法的有效性。在单交叉口信号控制的研究基础上,对多交叉口信号控制系统的结构展开研究,并探索了基于协作图的Max-plus算法在区域交通协调控制中的应用。进一步在深度强化学习算法的基础上,引入博弈论相关知识,建立了基于n人非零和合作博弈的多智能体交互模型,并建立相应的博弈表求解当前环境下的Nash均衡,在此基础上提出Nash Q学习算法,实现了区域交通信号控制,并使用该方法对区域交通系统进行仿真,实验结果验证了所提方法的有效性。