论文部分内容阅读
作为一类由强化学习、最优控制和人工神经网络交叉融合产生的优化方法,自适应动态规划(Adaptive Dynamic Programming,ADP)通过模仿生物的学习机制与环境进行交互,利用交互数据不断学习和改进自身策略直到系统性能最优。由于ADP可以解决传统动态规划中的“维数灾难”问题,现已成为智能控制与计算智能领域最新的研究热点。值得注意的是,当前大多数的现代控制系统往往包含两个或多个控制单元甚至是多个子系统,这类控制问题可被看作为合作或竞争的非线性博弈问题。然而,目前的ADP方法在求解这类复杂非线性博弈问题时还存在着许多难点与不足,特别是针对存在不确定项、输入受限、模型未知等情况的微分博弈问题。因此,利用ADP思想解决复杂非线性微分博弈问题,具有重要的理论与实际意义。另一方面,如何设计ADP方法以提高数据的利用率,节省通信资源,减轻计算负担也是一个值得深入探讨的研究热点。本文在综述当前研究现状的基础上,以最优控制理论、强化学习、博弈论等为主要工具,研究非线性系统ADP理论和方法,用于解决几类复杂非线性微分博弈(零和博弈、非零和博弈、完全合作博弈)问题,同时改进算法以提高数据利用率,节省通信资源,减轻计算负担。论文的主要章节包含以下工作和贡献: 1.面向二人零和博弈问题,提出了事件驱动自适应动态规划(Event-TriggeredAdaptive Dynamic Programming,EADP)算法,并给出了网络收敛性证明。EADP算法可有效地节省通信资源,减轻计算负担,同时适用于求解H∞控制问题。通过设计神经网络逼近器来逼近最优的值函数、最优的控制策略和最坏的干扰策略,即得到二人零和博弈的一组近似纳什均衡解。最后给出了基于多层前馈神经网络的实现方法以及仿真验证。 2.针对不确定非线性系统,利用最优控制的思想求解鲁棒控制问题。首先将不确定系统的鲁棒控制问题转换为相应辅助系统的合作博弈优化控制问题,同时在设计性能指标函数的时候考虑系统不确定项的影响,然后设计事件驱动条件确保所求得的最优控制器可以保证原不确定非线性系统的稳定性,这意味着该最优控制器也是原系统的鲁棒控制器。进而利用事件驱动自适应动态规划(EADP)算法逼近所转化合作博弈问题的最优控制策略。最后在两个常见仿真系统上验证了算法的有效性。 3.面向部分输入受限的完全合作博弈问题,提出数据驱动的自适应动态规划(Data-Driven Adaptive Dynamic Programming,DADP)算法,DADP算法采用在线采集数据和离策略迭代学习的方法,不再依赖系统动力学信息和模型辨识过程。同样设计了三个神经网络逼近器,利用最小二乘法同时更新神经网络的权重来分别逼近最优值函数、输入受限控制策略和输入不受限控制策略,并采用李雅普诺夫(Lyapunov)方法证明了闭环系统的一致最终有界性(Uniformly Ultimately Bounded,UUB)。 4.面向模型未知的N人非零和博弈问题,利用模型辨识的方法,通过设计恰当的神经网络辨识器辨识系统动力学模型,基于辨识的模型采用单评判网络结构逼近哈密尔顿-雅克比方程的解。在设计模型辨识器和评判网络的时候,结合经验回放技术,同时利用部分历史数据和当前数据更新神经网络权重,加快了神经网络的收敛速度,基于此提出了经验回放的单评判网络自适应动态规划(Single-Network ADP with Experience Replay,SAER)算法并证明了算法的收敛性,分别在线性和非线性非零和博弈系统上的仿真实验验证了算法的有效性。