论文部分内容阅读
作为智能交通系统的核心,车辆智能驾驶技术具有广阔的应用前景,已成为世界汽车产业新一轮竞争的焦点。运动控制技术是实现车辆自主驾驶的基础。由于智能车辆本身具有非线性、时延等复杂动力学特性,且道路坡度和侧倾度不断变化,轮地作用关系也较为复杂,因此实现高性能的车辆运动控制在理论和技术上都具有挑战性。自评价学习控制是增强学习(Reinforcement Learning,RL)在优化控制中的重要研究方向,具有自学习能力强、依赖模型信息少和数据驱动等特点,常被用于解决机器人和复杂系统控制等领域中存在的控制问题。面对行驶环境的复杂性、车辆动力学模型的非线性和时滞性等诸多困难,如何研究和利用自评价学习优化的方法实现高性能车辆运动控制是本文的主要研究目标。针对智能驾驶车辆的侧向控制、纵向控制以及协同自适应巡航控制三种典型的运动控制问题,本文重点研究了一类具有执行器-评价器框架的自评价学习控制理论方法。本文的主要工作成果和创新点如下:(1)针对智能驾驶车辆控制系统中存在的非线性和时延特性,提出一类仿射非线性时延系统的同步迭代对偶启发式规划算法(Synchronous iterative Dual Heuristic Programming,SI-DHP),并理论分析了该算法的收敛性。与现有方法相比,所提出的SI-DHP算法能够对含有状态时延项和动作时延项的非线性Hamilton-Jacobi-Bellman方程进行高效的同步迭代优化求解。利用前馈神经网络设计了SI-DHP算法中的执行器模块和评价器模块,分别用于逼近最优状态值函数和最优策略。利用仿真实例比较了SI-DHP学习控制方法与传统PI反馈控制方法的性能,结果表明SI-DHP学习控制方法具有良好的自学习优化和抗干扰能力。(2)提出一种基于SI-DHP的侧向学习控制方法。该方法结合了前馈-反馈控制结构,利用SI-DHP算法实现了反馈转向控制策略的优化。前馈转向控制器的输入信号是期望路径的曲率,结合所建立的阿克曼几何转向模型与轮胎模型两部分信息,得到了车辆所需补偿的轮胎侧向力和侧偏角,输出跟踪期望曲率所需要的前馈转向控制信号。反馈转向控制器利用车辆与期望路径之间的误差关系,考虑了车辆转向执行机构的时延特性和饱和特性,以最小化侧向跟踪误差和能量损耗为性能指标,采用SI-DHP算法获得优化的反馈转向控制策略。利用CarSim仿真软件进行了智能驾驶车辆的换道跟踪测试、圆形道路跟踪测试、S曲线道路跟踪测试以及城市综合道路跟踪测试,仿真结果表明基于SI-DHP的侧向学习控制方法与传统的LQR反馈控制方法、预瞄方法相比较具有更高的控制精度,尤其在车辆处于高机动行驶状态时。最后进行了红旗HQ3高速公路自主驾驶实验,验证了该侧向控制方法的有效性。(3)针对传统执行器-评价器方法存在着基函数构造困难、逼近器结构复杂以及学习泛化能力不够高的问题,提出一种基于离线参数化策略学习的执行器-评价器方法(parameterized batch actor-critic,PBAC)。通过在样本空间进行基于核稀疏化的二次采样,PBAC方法实现了基函数构造的自动化。PBAC方法中执行器和评价器采用相同的基函数分别逼近动作策略和状态值函数,并利用批量样本进行学习训练,提高了学习泛化性能。在车辆纵向解析模型未知的条件下利用PBAC方法学习得到了自适应速度跟踪控制策略,优化了智能驾驶车辆的纵向控制性能。利用实验车辆-红旗HQ7对跟踪5km/h至40km/h的速度控制策略进行了仿真研究和实验验证。仿真结果表明,基于PBAC的学习控制方法在噪声干扰条件下较传统PI和自适应PI控制方法有更高的控制精度。最后在城市颠簸路面、上下坡路面以及湿滑路面上进行了速度跟踪实车实验,验证了PBAC学习控制方法的有效性。(4)提出一种基于在线增量式DHP(Online Incremental based DHP,OI-DHP)学习的双车协同自适应巡航控制方法。在纵向协同控制中,利用OI-DHP方法对当前车辆跟踪目标车辆的加速度策略进行学习和优化,使两车达到相同速度和保持期望车距。在侧向协同控制中,局部路径规划模块利用目标车辆的位姿信息输出当前车辆跟踪目标车辆的期望路径,然后根据基于路宽约束的车路关系评价方法优化得到当前车辆跟踪期望路径所需要的最优转弯半径,再由侧向控制模块完成路径跟踪任务。仿真结果表明,在保证跟踪精度前提下基于OI-DHP学习的纵向协同控制方法在前车速度阶跃变化、缓加减速和急加减速情况下较传统LQR控制方法与PI控制方法具有更快的响应速度和更小的超调量。另外,利用车辆仿真软件PreScan所搭建的城市道路环境,测试了智能驾驶车辆的协同自适应巡航控制性能。结果表明所提出的协同自适应巡航控制方法在多种道路场景下具有良好的自适应优化能力。