自动驾驶车辆行为决策方法研究

来源 :内燃机与配件 | 被引量 : 0次 | 上传用户:liongliong450
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  0  引言
  车辆实现自动驾驶,对于缓解城市拥堵、提高行驶安全性以及降低运输成本等方面具有公认的作用。如何实现车辆的自动驾驶是目前汽车行业非常重要的发展和研究方向。
  1  自动驾驶车辆行为决策问题分类及难点
  1.1 车辆决策问题分类  车辆的决策以横纵向驾驶行为可分为:①驾驶行为推理问题,如停车、避让和车道保持等;②速度决策问题,如加速、减速或保持速度等。也可根据车辆驾驶行为将问题分为车辆控制行为、基本行车行为、基本交通行为、高级行车行为、高级交通行为。
  1.2 决策难点分析  实现自动驾驶关键在于车辆的行为决策是否合理可行。如何综合车辆运行环境及车辆信息,结合行驶目的做出具有安全性、可靠性以及合理性的驾驶行为是决策控制的难点亦是实现自动驾驶的难点。
  应对环境多变性、检测不准确性、交通复杂性、交规约束性等诸多车辆行驶不利因素,如何降低或消除其产生的不利影响,是行为决策模块的研究重点。此前已有研究人员提出了许多应对不同环境的决策方法,可分为基于规则的行为决策方法和基于统计的行为决策方法。但其中仍有许多亟待解决的问题。本文分别对两种方法中应用较广的模型及基于有限状态机模型和深度强化学习模型的自动驾驶决策方法进行探讨,对其适用性、可靠性及实现原理进行对比分析。提出行为决策方法的发展趋势,为自动驾驶车辆行为决策方法的研究提供参考。
  2  基于有限状态机的行为决策模型
  有限状态机模型作为经典的智能车辆驾驶行为决策方法,因其结构简单、控制逻辑清晰,多应用于园区、港口等封闭场景。在这些封闭场景中道路具有固定的路线和节点,因此可预先设计行驶规则。这种预先设计行驶规则的方法将特定场景的车辆决策描述为离散事件,在不同场景通过不同事件触发相应的驾驶行为。这种基于事件响应的模型称为有限状态机决策模型。
  2.1 有限状态机模型的原理  有限状态机(FSM,Finite-State Machine)是对特定目标在有限个状态中由特定事件触发使状态相互转移并执行相应动作的数学模型。已经被广泛应用在特定场景无人驾驶车辆、机器人系统等领域。有限状态机主要由四部分组成:事件(Event)、转换(Transition)、状态(State)及动作(Action)。
  式中:∑是输入集,也称事件集,是状态集能接受的所有可能输入;Λ是输出集,也称动作集,是FSM的响应动作集合;S是状态集,包含对象特定场景下的所有状态;s0是初始状态,表示FSM的初始条件或默认状态;f是终止状态,是FSM状态集的子集,可以是空集;δ是转换逻辑,是FSM的状态转移条件。
  使用此模型时应满足:①以上所有集合为有限集。②任意时刻均有對应状态,任意状态均有对应动作。③忽略状态转移时间。
  2.2 有限状态机模型在车辆决策中的应用  Junior车队[1]在2007年的DAPRA比赛中使用并联结构有限状态机模型实现了包括初始状态、车道跟随等13种行驶状态的相互切换,图1中显示了11种情况省略了避障(ESCAPE)和交通堵塞(TRAFFIC JAM)两种情况。
  BOSS车队[2]采用了如图2所示的有限状态机层次式混联结构模型,此结构根据车辆自身的行为和驾驶场景分为两层,各层对应不同的状态,一定程度上解决了有限状态机模型在驾驶状态增多时,结构凌乱难以维护的缺点。
  中国科学技术大学研发的智能先锋Ⅱ[3]智能车采用分为行为决策和驾驶动作执行(运动规划、控制)的两层有限状态机决策模型。
  综上所述,基于有限状态机模型及其拓展模型的决策系统其结构相对简单、框架清晰应用较为广泛。但是当智能车辆行驶环境比较复杂时,其状态集和输入集大量增加,结构变得复杂且场景划分比较困难。因此此方法适用于简单场景时具有较高可靠性。
  3  基于深度强化学习的行为决策模型
  人工智能自诞生以来,经过六十多年的发展,已经成为一门具有日臻完善的理论基础、日益广泛的应用领域的交叉学科。近年来,对深度强化学习算法的进一步认识和挖掘,是人工智能实现应用的重要研究方向。深度强化学习技术方法越来越广泛的应用于智能车辆的环境感知与决策系统[4]。
  3.1 深度强化学习模型的原理  深度强化学习(Deep Reinforcement Learning,DRL)结合了深度学习算法的“感知能力”和强化学习算法的“决策能力”,为复杂驾驶场景的感知决策问题提供解决方案。DRL的原理框架是一种是端到端感知和决策控制系统。其框架如图3所示。
  其学习过程可概括为:①智能体与环境交互得到观测信息,并利用深度学习识别观测信息的特征;②基于预期回报评判动作价值,并根据相应策略将当前状态映射到相应动作;③随动作变化而导致智能体与环境交互得到的观测信息发生变化,进入三者的循环最终得出目标的最优策略。
  3.2 深度强化学习算法  基于深度学习的方法通常需要大量人工标记的数据来训练模型,再以此深度网络实现自动驾驶决策,对于车辆这个动态对象来说这是不现实的。而基于强化学习的方法则具有一定的自主决策能力,符合车辆行驶的动态特性。但强化学习方法是将所有的状态-动作映射的评价值储存为一个列表,这对于车辆的复杂工况很难实现,因此基于强化学习的自动驾驶决策算法没有广泛应用。
  研究者尝试将深度学习和强化学习结合形成了图3所示的深度强化学习模型。其代表性算法是由Mnih等提出的DQN(Deep Q-Network)算法[5]。此算法针对离散动作空间,并不适用于车辆自动驾驶控制系统。2016年,Google DeepMind将DQN算法改进为深度确定性策略梯度(Deep Dterministic Policy Gradient,DDPG)算法,可实现连续动作空间的控制决策。此算法更加符合人类决策方式。由王丙琛[6]等,在DDPG的基础上提出了结合专家经验的决策控制算法(Deep Dterministic Policy Gradient with Expert,DDPGwE)。与DDPG算法相比,DDPGwE算法缩短了训练时间,提高模型的稳定性和泛化性。   3.3 基于深度强化学习模型的应用  英伟达公司[7]研发的驾驶行为决策系统使用的是端到端神经网络进行,其模型训练框图4所示。
  国内百度公司的端到端系统使用长短时记忆神经网络(Long short term memory network,LSTM)算法实现车辆纵向决策与控制,使用卷积神经网络深度强化学习模型实现车辆的横向决策与控制,同时实现了对车辆横纵方向上的驾驶行为决策与车辆控制。
  通过对已经应用深度强化学习模型的案例的研究发现,此模型具有解决复杂环境车辆决策与控制的潜力。但是,随着车辆环境信息复杂程度的加大决策控制模块需要处理和分析的数据量也会大大增加,对控制算法及模型的时效性提出更高的要求。
  4  结论
  文章就目前应用较多的基于有限状态机模型的自动驾驶决策方法和基于深度强化学习算法的决策方法进行了分析。从应用上讲,基于有限状态机模型的决策模型更适用于封闭场景的駕驶决策,但应对实际场景,还要在有限状态机模型的基础上结合相应的前沿控制算法解决决策控制问题。基于深度强化学习的决策方法的应用场景则更广泛,是未来决策控制的发展方向。从可靠性上讲,目前的自动驾驶技术都处于实验或应用测试阶段,自动驾驶技术的可靠性都需要较长时间的检验及验证。
  参考文献:
  [1]Montemerlo M, Bhat S, Bhat S, et al. Junior: The Stanford entry in the urban challenge[J]. Journal of Field Robotics, 2009, 25(9):569-597.
  [2]陈佳佳.城市环境下无人驾驶车辆决策系统研究[D].合肥: 中国科学技术大学,2014.
  [3]杜明博.基于人类驾驶行为的无人驾驶车辆行为决策与运动规划方法研究[D].合肥:中国科学技术大学,2016:1-18.
  [4]Pan X, You Y, Wang Z, et al. Virtual to real reinforcement learning for autonomous driving.[C]. British Machine Vision Conference, 2017.
  [5]Chung J. Playing Atari with Deep Reinforcement Learning[J]. Computer ence, 2013.
  [6]王丙琛,司怀伟,谭国真.基于深度强化学习的自动驾驶车控制算法研究[J/OL].郑州大学学报(工学版),2020:1-6.
  [7]Bojarski M, Testa D D, Dworakowski D, et al. End to End Learning for Self-Driving Cars[J]. arXiv: Computer Vision and Pattern Recognition, 2016.
  摘要:为了研究自动驾驶车辆行为决策方法的原理及发展,文章通过分析目前驾驶行为决策方法的研究成果,对行为决策方法进行综述。主要分析基于有限状态机模型和深度强化学习模型的行为决策方法的原理及优劣,分析相应决策方法的适用场景。总结实现高级别自动驾驶行为决策的技术难点,并对相应的解决方案进行分析。
  关键词:自动驾驶;行为决策;深度强化学习;有限状态机
其他文献
摘要:通过对轴承内包装材料元素的研究,确定出影响轴承包装质量的内包装材料有害元素及其含量,继而对包装质量进行科学的检测和有效控制。从源头上避免或减少轴承因包装产生不良质量问题的发生。  关键词:轴承内包装材料;元素分析;耐腐蚀性试验;有害元素;有效控制  0 引言  包装的目的是为了产品便于储存、运输和经销,保护产品在此期间免受各种破坏。作为精密机械零件的轴承,其包装材料的选用更应引起特别的关注。
期刊
摘要:以市场上广泛通用的齿轮泵泵体为原型,通过大量实验确定了齿轮泵的加工工艺和夹具设计。这次加工采用大批量生产,有些零件精度要求较高,因此加工工艺分的较细,很多加工表面都安排了精加工,运用的机床较多。夹具对零件加工的精度质量、生产效率和产品成本都有重大影响,因此自己设计了一套专用的铣床夹具,用来铣削在普通机床上通用夹具难以定位夹紧的零件加工表面。  关键词:齿轮泵;夹具;定位夹紧  1 零件的分析
期刊
摘要:针对柴油机冷却水温度传感器断裂的问题,通过对该测点管路流腔进行CFD仿真计算,分析了流腔内部速度和压力场的变化情况,确定了传感器的断裂原因。计算结果表明:传感器位置处流速较大,导致传感器下部受振荡力,且发生了空蚀,使传感器失效。本文针对此次传感器断裂故障提出了解决措施:对传感器的位置进行了优化布置;对传感器的结构形式进行了改进。通过改进,传感器随整机验证时间超过1500h,未再发生同类断裂故
期刊
摘要:以某型飞机襟翼系统为研究对象,研究系统的组成和工作原理,对近年来发生的常见故障进行统计和分析,并对一起襟翼系统典型故障进行了分析探讨,最后提出了具有针对性的维护建议,为维修人员在该系统故障的排除上提供了借鉴和参考。  关键词:襟翼系统;收放;故障分析  0 引言  襟翼是飞机上重要的增升装置,是保证飞机安全飞行的重要组件,在飞机起飞和着陆及地面滑跑过程中起着举足轻重的作用[1]。其基本效用是
期刊
摘要:从柴油机活塞环的作用及运动形式出发,结合活塞环断口进行宏观检测、扫描电镜、金相等分析了活塞环在环槽内折断的原因为疲劳断裂,疲劳源应位于外圆面上棱边倒角处,推测活塞环断裂主要与活塞环承载超限有关。  關键词:活塞环;疲劳;断裂;承载  0 引言  柴油机活塞在工作时要受到较高的热负荷,受热后活塞要膨胀,为了保证活塞能在气缸内高速往复运动,必须保证在工作状态下活塞与气缸之间具有必要的间隙,而气环
期刊
摘要:随着科学信息技术的迅猛发展,传送带生产出来的大批量、单一产品已不再满足客户的需求。除此之外,低成本、“少人化”理念已渗透企业当中。此背景下,由成组技术发展而来的单元制造模式受到了广泛的关注和应用。论文对两种生产方式进行比较研究,找出传送带中存在的问题及单元制造模式的优点。找出一条适合我国企业推行的单元制造模式的实施方法,使我国企业在生产过程中达到降低成本、提高利润的目的,增强我国制造业的竞争
期刊
摘要:随着社会经济与科技的不断推进,车辆的数量不断增多,这使得发动机故障问题较为常见,而气缸压缩压力这种测量方式在诊断中是非常有效的一种手段。对此,文章针对气缸压缩压力的测量在发动机故障诊断中的运用展开了论述。  关键词:气缸;压缩压力;测量;发动机故障诊断;运用  0 引言  在发动机故障问题中气缸的密封性是非常重要的环节,也是较为常见的一个问题,同时对于汽车发动机来说也是技术性能方面的一个主要
期刊
摘要:通过对某汽车修理厂的汽车维修服务排队系统进行分析,并在Witness2008平台上对该汽车维修排队系统进行仿真建模,以某汽车维修厂的实际数据进行仿真,并用排队论理论进行分析,结合仿真值和理论值,并比较误差率,实证结果表明,利用仿真软件来进行排队系统各指标的研究是可行的,简化排队论在汽车维修排队系统繁琐的运算,为汽车修理厂提供决策依据。  关键词:汽车维修店;Witness;M/M/C;排队系
期刊
摘要:近些年来,科学技术的发展不仅极大地改善了人们的生活水平,同时也积极带动了我国汽车制造业的发展。即便如此,与西方发达国家相比,我国汽车机械加工技术仍旧处于相对较为落后的状态,且存在着一定的差距。基于此,本文章主要针对汽车机械加工技术的现状及发展趋势展开了深入的分析,并提出了几条发展汽车机械加工技术的有效路径,以此来进一步促进我国汽车行业的健康发展。  关键词:汽车机械加工技术;现状;发展趋势 
期刊
摘要:社会科技发展水平不断提升,在现代化建设过程中,起重机发挥着重要的作用,因为起重机具有较高的便利性,因此在企业生产过程中广泛利用起重机,提高企业生产效率。但是在操作起重机的过程中经常会发生机械故障,影响到群众生命财产安全。本文主要分析了起重机故障问题,提出针对性的处置和改进措施,优化起重机工作性能,进一步提高整体社会生产率。  Abstract: The social science and
期刊