论文部分内容阅读
0 引言
车辆实现自动驾驶,对于缓解城市拥堵、提高行驶安全性以及降低运输成本等方面具有公认的作用。如何实现车辆的自动驾驶是目前汽车行业非常重要的发展和研究方向。
1 自动驾驶车辆行为决策问题分类及难点
1.1 车辆决策问题分类 车辆的决策以横纵向驾驶行为可分为:①驾驶行为推理问题,如停车、避让和车道保持等;②速度决策问题,如加速、减速或保持速度等。也可根据车辆驾驶行为将问题分为车辆控制行为、基本行车行为、基本交通行为、高级行车行为、高级交通行为。
1.2 决策难点分析 实现自动驾驶关键在于车辆的行为决策是否合理可行。如何综合车辆运行环境及车辆信息,结合行驶目的做出具有安全性、可靠性以及合理性的驾驶行为是决策控制的难点亦是实现自动驾驶的难点。
应对环境多变性、检测不准确性、交通复杂性、交规约束性等诸多车辆行驶不利因素,如何降低或消除其产生的不利影响,是行为决策模块的研究重点。此前已有研究人员提出了许多应对不同环境的决策方法,可分为基于规则的行为决策方法和基于统计的行为决策方法。但其中仍有许多亟待解决的问题。本文分别对两种方法中应用较广的模型及基于有限状态机模型和深度强化学习模型的自动驾驶决策方法进行探讨,对其适用性、可靠性及实现原理进行对比分析。提出行为决策方法的发展趋势,为自动驾驶车辆行为决策方法的研究提供参考。
2 基于有限状态机的行为决策模型
有限状态机模型作为经典的智能车辆驾驶行为决策方法,因其结构简单、控制逻辑清晰,多应用于园区、港口等封闭场景。在这些封闭场景中道路具有固定的路线和节点,因此可预先设计行驶规则。这种预先设计行驶规则的方法将特定场景的车辆决策描述为离散事件,在不同场景通过不同事件触发相应的驾驶行为。这种基于事件响应的模型称为有限状态机决策模型。
2.1 有限状态机模型的原理 有限状态机(FSM,Finite-State Machine)是对特定目标在有限个状态中由特定事件触发使状态相互转移并执行相应动作的数学模型。已经被广泛应用在特定场景无人驾驶车辆、机器人系统等领域。有限状态机主要由四部分组成:事件(Event)、转换(Transition)、状态(State)及动作(Action)。
式中:∑是输入集,也称事件集,是状态集能接受的所有可能输入;Λ是输出集,也称动作集,是FSM的响应动作集合;S是状态集,包含对象特定场景下的所有状态;s0是初始状态,表示FSM的初始条件或默认状态;f是终止状态,是FSM状态集的子集,可以是空集;δ是转换逻辑,是FSM的状态转移条件。
使用此模型时应满足:①以上所有集合为有限集。②任意时刻均有對应状态,任意状态均有对应动作。③忽略状态转移时间。
2.2 有限状态机模型在车辆决策中的应用 Junior车队[1]在2007年的DAPRA比赛中使用并联结构有限状态机模型实现了包括初始状态、车道跟随等13种行驶状态的相互切换,图1中显示了11种情况省略了避障(ESCAPE)和交通堵塞(TRAFFIC JAM)两种情况。
BOSS车队[2]采用了如图2所示的有限状态机层次式混联结构模型,此结构根据车辆自身的行为和驾驶场景分为两层,各层对应不同的状态,一定程度上解决了有限状态机模型在驾驶状态增多时,结构凌乱难以维护的缺点。
中国科学技术大学研发的智能先锋Ⅱ[3]智能车采用分为行为决策和驾驶动作执行(运动规划、控制)的两层有限状态机决策模型。
综上所述,基于有限状态机模型及其拓展模型的决策系统其结构相对简单、框架清晰应用较为广泛。但是当智能车辆行驶环境比较复杂时,其状态集和输入集大量增加,结构变得复杂且场景划分比较困难。因此此方法适用于简单场景时具有较高可靠性。
3 基于深度强化学习的行为决策模型
人工智能自诞生以来,经过六十多年的发展,已经成为一门具有日臻完善的理论基础、日益广泛的应用领域的交叉学科。近年来,对深度强化学习算法的进一步认识和挖掘,是人工智能实现应用的重要研究方向。深度强化学习技术方法越来越广泛的应用于智能车辆的环境感知与决策系统[4]。
3.1 深度强化学习模型的原理 深度强化学习(Deep Reinforcement Learning,DRL)结合了深度学习算法的“感知能力”和强化学习算法的“决策能力”,为复杂驾驶场景的感知决策问题提供解决方案。DRL的原理框架是一种是端到端感知和决策控制系统。其框架如图3所示。
其学习过程可概括为:①智能体与环境交互得到观测信息,并利用深度学习识别观测信息的特征;②基于预期回报评判动作价值,并根据相应策略将当前状态映射到相应动作;③随动作变化而导致智能体与环境交互得到的观测信息发生变化,进入三者的循环最终得出目标的最优策略。
3.2 深度强化学习算法 基于深度学习的方法通常需要大量人工标记的数据来训练模型,再以此深度网络实现自动驾驶决策,对于车辆这个动态对象来说这是不现实的。而基于强化学习的方法则具有一定的自主决策能力,符合车辆行驶的动态特性。但强化学习方法是将所有的状态-动作映射的评价值储存为一个列表,这对于车辆的复杂工况很难实现,因此基于强化学习的自动驾驶决策算法没有广泛应用。
研究者尝试将深度学习和强化学习结合形成了图3所示的深度强化学习模型。其代表性算法是由Mnih等提出的DQN(Deep Q-Network)算法[5]。此算法针对离散动作空间,并不适用于车辆自动驾驶控制系统。2016年,Google DeepMind将DQN算法改进为深度确定性策略梯度(Deep Dterministic Policy Gradient,DDPG)算法,可实现连续动作空间的控制决策。此算法更加符合人类决策方式。由王丙琛[6]等,在DDPG的基础上提出了结合专家经验的决策控制算法(Deep Dterministic Policy Gradient with Expert,DDPGwE)。与DDPG算法相比,DDPGwE算法缩短了训练时间,提高模型的稳定性和泛化性。 3.3 基于深度强化学习模型的应用 英伟达公司[7]研发的驾驶行为决策系统使用的是端到端神经网络进行,其模型训练框图4所示。
国内百度公司的端到端系统使用长短时记忆神经网络(Long short term memory network,LSTM)算法实现车辆纵向决策与控制,使用卷积神经网络深度强化学习模型实现车辆的横向决策与控制,同时实现了对车辆横纵方向上的驾驶行为决策与车辆控制。
通过对已经应用深度强化学习模型的案例的研究发现,此模型具有解决复杂环境车辆决策与控制的潜力。但是,随着车辆环境信息复杂程度的加大决策控制模块需要处理和分析的数据量也会大大增加,对控制算法及模型的时效性提出更高的要求。
4 结论
文章就目前应用较多的基于有限状态机模型的自动驾驶决策方法和基于深度强化学习算法的决策方法进行了分析。从应用上讲,基于有限状态机模型的决策模型更适用于封闭场景的駕驶决策,但应对实际场景,还要在有限状态机模型的基础上结合相应的前沿控制算法解决决策控制问题。基于深度强化学习的决策方法的应用场景则更广泛,是未来决策控制的发展方向。从可靠性上讲,目前的自动驾驶技术都处于实验或应用测试阶段,自动驾驶技术的可靠性都需要较长时间的检验及验证。
参考文献:
[1]Montemerlo M, Bhat S, Bhat S, et al. Junior: The Stanford entry in the urban challenge[J]. Journal of Field Robotics, 2009, 25(9):569-597.
[2]陈佳佳.城市环境下无人驾驶车辆决策系统研究[D].合肥: 中国科学技术大学,2014.
[3]杜明博.基于人类驾驶行为的无人驾驶车辆行为决策与运动规划方法研究[D].合肥:中国科学技术大学,2016:1-18.
[4]Pan X, You Y, Wang Z, et al. Virtual to real reinforcement learning for autonomous driving.[C]. British Machine Vision Conference, 2017.
[5]Chung J. Playing Atari with Deep Reinforcement Learning[J]. Computer ence, 2013.
[6]王丙琛,司怀伟,谭国真.基于深度强化学习的自动驾驶车控制算法研究[J/OL].郑州大学学报(工学版),2020:1-6.
[7]Bojarski M, Testa D D, Dworakowski D, et al. End to End Learning for Self-Driving Cars[J]. arXiv: Computer Vision and Pattern Recognition, 2016.
摘要:为了研究自动驾驶车辆行为决策方法的原理及发展,文章通过分析目前驾驶行为决策方法的研究成果,对行为决策方法进行综述。主要分析基于有限状态机模型和深度强化学习模型的行为决策方法的原理及优劣,分析相应决策方法的适用场景。总结实现高级别自动驾驶行为决策的技术难点,并对相应的解决方案进行分析。
关键词:自动驾驶;行为决策;深度强化学习;有限状态机
车辆实现自动驾驶,对于缓解城市拥堵、提高行驶安全性以及降低运输成本等方面具有公认的作用。如何实现车辆的自动驾驶是目前汽车行业非常重要的发展和研究方向。
1 自动驾驶车辆行为决策问题分类及难点
1.1 车辆决策问题分类 车辆的决策以横纵向驾驶行为可分为:①驾驶行为推理问题,如停车、避让和车道保持等;②速度决策问题,如加速、减速或保持速度等。也可根据车辆驾驶行为将问题分为车辆控制行为、基本行车行为、基本交通行为、高级行车行为、高级交通行为。
1.2 决策难点分析 实现自动驾驶关键在于车辆的行为决策是否合理可行。如何综合车辆运行环境及车辆信息,结合行驶目的做出具有安全性、可靠性以及合理性的驾驶行为是决策控制的难点亦是实现自动驾驶的难点。
应对环境多变性、检测不准确性、交通复杂性、交规约束性等诸多车辆行驶不利因素,如何降低或消除其产生的不利影响,是行为决策模块的研究重点。此前已有研究人员提出了许多应对不同环境的决策方法,可分为基于规则的行为决策方法和基于统计的行为决策方法。但其中仍有许多亟待解决的问题。本文分别对两种方法中应用较广的模型及基于有限状态机模型和深度强化学习模型的自动驾驶决策方法进行探讨,对其适用性、可靠性及实现原理进行对比分析。提出行为决策方法的发展趋势,为自动驾驶车辆行为决策方法的研究提供参考。
2 基于有限状态机的行为决策模型
有限状态机模型作为经典的智能车辆驾驶行为决策方法,因其结构简单、控制逻辑清晰,多应用于园区、港口等封闭场景。在这些封闭场景中道路具有固定的路线和节点,因此可预先设计行驶规则。这种预先设计行驶规则的方法将特定场景的车辆决策描述为离散事件,在不同场景通过不同事件触发相应的驾驶行为。这种基于事件响应的模型称为有限状态机决策模型。
2.1 有限状态机模型的原理 有限状态机(FSM,Finite-State Machine)是对特定目标在有限个状态中由特定事件触发使状态相互转移并执行相应动作的数学模型。已经被广泛应用在特定场景无人驾驶车辆、机器人系统等领域。有限状态机主要由四部分组成:事件(Event)、转换(Transition)、状态(State)及动作(Action)。
式中:∑是输入集,也称事件集,是状态集能接受的所有可能输入;Λ是输出集,也称动作集,是FSM的响应动作集合;S是状态集,包含对象特定场景下的所有状态;s0是初始状态,表示FSM的初始条件或默认状态;f是终止状态,是FSM状态集的子集,可以是空集;δ是转换逻辑,是FSM的状态转移条件。
使用此模型时应满足:①以上所有集合为有限集。②任意时刻均有對应状态,任意状态均有对应动作。③忽略状态转移时间。
2.2 有限状态机模型在车辆决策中的应用 Junior车队[1]在2007年的DAPRA比赛中使用并联结构有限状态机模型实现了包括初始状态、车道跟随等13种行驶状态的相互切换,图1中显示了11种情况省略了避障(ESCAPE)和交通堵塞(TRAFFIC JAM)两种情况。
BOSS车队[2]采用了如图2所示的有限状态机层次式混联结构模型,此结构根据车辆自身的行为和驾驶场景分为两层,各层对应不同的状态,一定程度上解决了有限状态机模型在驾驶状态增多时,结构凌乱难以维护的缺点。
中国科学技术大学研发的智能先锋Ⅱ[3]智能车采用分为行为决策和驾驶动作执行(运动规划、控制)的两层有限状态机决策模型。
综上所述,基于有限状态机模型及其拓展模型的决策系统其结构相对简单、框架清晰应用较为广泛。但是当智能车辆行驶环境比较复杂时,其状态集和输入集大量增加,结构变得复杂且场景划分比较困难。因此此方法适用于简单场景时具有较高可靠性。
3 基于深度强化学习的行为决策模型
人工智能自诞生以来,经过六十多年的发展,已经成为一门具有日臻完善的理论基础、日益广泛的应用领域的交叉学科。近年来,对深度强化学习算法的进一步认识和挖掘,是人工智能实现应用的重要研究方向。深度强化学习技术方法越来越广泛的应用于智能车辆的环境感知与决策系统[4]。
3.1 深度强化学习模型的原理 深度强化学习(Deep Reinforcement Learning,DRL)结合了深度学习算法的“感知能力”和强化学习算法的“决策能力”,为复杂驾驶场景的感知决策问题提供解决方案。DRL的原理框架是一种是端到端感知和决策控制系统。其框架如图3所示。
其学习过程可概括为:①智能体与环境交互得到观测信息,并利用深度学习识别观测信息的特征;②基于预期回报评判动作价值,并根据相应策略将当前状态映射到相应动作;③随动作变化而导致智能体与环境交互得到的观测信息发生变化,进入三者的循环最终得出目标的最优策略。
3.2 深度强化学习算法 基于深度学习的方法通常需要大量人工标记的数据来训练模型,再以此深度网络实现自动驾驶决策,对于车辆这个动态对象来说这是不现实的。而基于强化学习的方法则具有一定的自主决策能力,符合车辆行驶的动态特性。但强化学习方法是将所有的状态-动作映射的评价值储存为一个列表,这对于车辆的复杂工况很难实现,因此基于强化学习的自动驾驶决策算法没有广泛应用。
研究者尝试将深度学习和强化学习结合形成了图3所示的深度强化学习模型。其代表性算法是由Mnih等提出的DQN(Deep Q-Network)算法[5]。此算法针对离散动作空间,并不适用于车辆自动驾驶控制系统。2016年,Google DeepMind将DQN算法改进为深度确定性策略梯度(Deep Dterministic Policy Gradient,DDPG)算法,可实现连续动作空间的控制决策。此算法更加符合人类决策方式。由王丙琛[6]等,在DDPG的基础上提出了结合专家经验的决策控制算法(Deep Dterministic Policy Gradient with Expert,DDPGwE)。与DDPG算法相比,DDPGwE算法缩短了训练时间,提高模型的稳定性和泛化性。 3.3 基于深度强化学习模型的应用 英伟达公司[7]研发的驾驶行为决策系统使用的是端到端神经网络进行,其模型训练框图4所示。
国内百度公司的端到端系统使用长短时记忆神经网络(Long short term memory network,LSTM)算法实现车辆纵向决策与控制,使用卷积神经网络深度强化学习模型实现车辆的横向决策与控制,同时实现了对车辆横纵方向上的驾驶行为决策与车辆控制。
通过对已经应用深度强化学习模型的案例的研究发现,此模型具有解决复杂环境车辆决策与控制的潜力。但是,随着车辆环境信息复杂程度的加大决策控制模块需要处理和分析的数据量也会大大增加,对控制算法及模型的时效性提出更高的要求。
4 结论
文章就目前应用较多的基于有限状态机模型的自动驾驶决策方法和基于深度强化学习算法的决策方法进行了分析。从应用上讲,基于有限状态机模型的决策模型更适用于封闭场景的駕驶决策,但应对实际场景,还要在有限状态机模型的基础上结合相应的前沿控制算法解决决策控制问题。基于深度强化学习的决策方法的应用场景则更广泛,是未来决策控制的发展方向。从可靠性上讲,目前的自动驾驶技术都处于实验或应用测试阶段,自动驾驶技术的可靠性都需要较长时间的检验及验证。
参考文献:
[1]Montemerlo M, Bhat S, Bhat S, et al. Junior: The Stanford entry in the urban challenge[J]. Journal of Field Robotics, 2009, 25(9):569-597.
[2]陈佳佳.城市环境下无人驾驶车辆决策系统研究[D].合肥: 中国科学技术大学,2014.
[3]杜明博.基于人类驾驶行为的无人驾驶车辆行为决策与运动规划方法研究[D].合肥:中国科学技术大学,2016:1-18.
[4]Pan X, You Y, Wang Z, et al. Virtual to real reinforcement learning for autonomous driving.[C]. British Machine Vision Conference, 2017.
[5]Chung J. Playing Atari with Deep Reinforcement Learning[J]. Computer ence, 2013.
[6]王丙琛,司怀伟,谭国真.基于深度强化学习的自动驾驶车控制算法研究[J/OL].郑州大学学报(工学版),2020:1-6.
[7]Bojarski M, Testa D D, Dworakowski D, et al. End to End Learning for Self-Driving Cars[J]. arXiv: Computer Vision and Pattern Recognition, 2016.
摘要:为了研究自动驾驶车辆行为决策方法的原理及发展,文章通过分析目前驾驶行为决策方法的研究成果,对行为决策方法进行综述。主要分析基于有限状态机模型和深度强化学习模型的行为决策方法的原理及优劣,分析相应决策方法的适用场景。总结实现高级别自动驾驶行为决策的技术难点,并对相应的解决方案进行分析。
关键词:自动驾驶;行为决策;深度强化学习;有限状态机