论文部分内容阅读
近年来,随着工程应用范围的扩大,近似动态规划(Approximate dynamic programming,ADP)方法越来越多的被用于求解各种复杂的优化决策问题。如何提高近似动态规划方法的泛化能力和实时优化能力是本文的基础理论研究。另一方面,在国家自然科学基金重大研究计划重点资助项目的支持下,重点研究了自主车在不同道路形状和车速下基于近似动态规划的侧向控制方法。论文的主要工作成果和创新点如下:(1)针对传统近似动态规划方法存在学习效率低、特征选择困难的问题,提出了基于核的近似动态规划(Kernel-based ADP,KADP)方法。该方法采用稀疏核方法来构建基函数,并使用递推最小二乘时域差分算法来进行评价器的学习。理论分析表明由于稀疏核方法具有良好的表示学习和泛化能力,新方法中的评价器能够获得更小的逼近误差以及更快的收敛速度。对倒立摆系统的仿真与实验结果表明相对于传统的近似动态规划方法,新方法能够获得更优的控制性能和约30%的收敛速度提升。(2)提出了基于图拉普拉斯的近似动态规划(Graph Laplacian-based ADP,GL-ADP)方法。该方法将流形学习与近似动态规划相结合,利用图拉普拉斯算子进行基函数的构建,并采用递推最小二乘时域差分算法训练评价器。理论分析表明虽然GL-ADP的计算复杂性通常要高于KADP,但是避免了人工经验选取核函数类型与参数的问题。对连续搅拌釜式反应器和板球系统的仿真结果表明新方法能够获得优于传统近似动态规划方法的控制性能;此外相比于KADP方法,虽然计算代价有所提高,但是收敛速度和控制性能分别提升了约18%和2%。(3)提出了针对离散时间系统的滚动时域近似动态规划(Receding horizon ADP,RHADP)优化控制方法。该方法在每个预测时域内均采用有限时域的近似动态规划方法求解闭环的最优控制策略,并且其收敛性和受控系统的稳定性均得到证明。此外,分析结果表明新方法的计算复杂性为O(N2),而采用内点法作为优化方法的非线性模型预测控制方法的计算复杂性为O(N3L)。对移动机器人的轨迹跟踪问题和Van der pol振荡器控制问题的仿真研究结果表明,新方法能够获得优于采用内点法作为优化方法的非线性模型预测控制方法的控制性能,并且计算代价也明显降低。(4)提出了一种自适应的自主车侧向控制方法。首先建立了自主车侧向控制问题的马尔可夫决策过程模型,然后采用基于核的对偶启发式规划(Kernel-based dual heuristic programming,KDHP)算法来求取该控制问题的闭环最优策略。由于KDHP算法具有良好的自优化和泛化能力,因此有利于控制器在不同的道路形状及车速条件下获得较高的控制精度。在总里程约为200km的实车实验中(包括大曲率路径,校园道路,城市道路和高速公路),平均侧向误差约为0.18m,并且在某些条件下能够获得比已在车上使用的基于预瞄和运动学模型的反馈控制方法更高的控制精度,同时也避免了在拐大弯时误“抄近道”的问题。本文的研究成果已用于项目的自主驾驶测试车上。