论文部分内容阅读
自适应动态规划(ADP)是一种结合了动态规划、强化学习、神经网络等多重理论的控制策略,为解决非线性系统的最优控制问题提供了新的有效方法。与动态规划相比,它的优势在于能够有效求解非线性系统哈密顿-雅可比-贝尔曼(HJB)方程,克服“维数灾”,适用于模型未知的复杂非线性系统等等,因此获得了研究者的广泛关注。然而,随着通讯网络的发展和计算数据的增多,传统的基于时间触发的自适应动态规划算法已经很难满足人们对于计算效率和资源利用率的要求。因此,本文基于事件触发控制和自适应动态规划理论,提出了一种新的事件触发自适应动态规划算法,并且从理论上证明了该算法能够保证整个闭环系统的稳定性,为复杂非线性系统的分析与控制提供了新的设计思路和实现方法。与传统的时间触发自适应动态规划算法相比,这种事件触发机制采用非周期性的方式进行控制器更新、系统数据传输,能够大幅提高计算资源和通信资源利用的效率。本文主要工作如下:(1)提出了一种基于预测事件触发控制的启发式动态规划(HDP)算法,解决了一类未知非线性连续系统的最优控制问题。一般地,在事件触发HDP控制算法中,事件触发误差被定义为当前状态与采样状态之间的差值,并由此来设计出适合的事件触发条件。该方法利用神经网络强大的函数映射能力,重构系统模型进而估测状态向量。在经典的事件触发控制方法的基础上,通过估测下一个观测时刻的状态向量,计算产生预测事件触发误差,进而设计出具有预测性的事件触发条件。在该预测事件触发条件下更新执行网络,使得被控系统能够更快收敛,节约更多计算成本。(2)针对一类输入受限的非线性系统的最优控制问题,提出了一种基于事件触发的HDP算法。首先,受到Lyshevski的启发,设计了一类非二次型性能指标函数,用于求解输入受限系统的最优控制问题。其次,针对非线性输入受限系统的HJB方程无法直接求得解析解的问题,充分利用了神经网络所具有的非线性映射能力以及较强的自适应学习能力,采取执行-评价结构来得到HJB等式的近似解。同时,利用李亚普诺夫稳定性原理,设计适当的事件触发阈值,使得HDP控制器在制定的触发条件下进行非周期性采样,这样控制器的效率和控制性能都得以保证。最后给出严格的数学证明保证了闭环系统的稳定性。(3)提出了一种基于事件触发的二次启发式规划(DHP)算法用于求解一类复杂的连续时间系统的最优控制问题。在传统的DHP算法中,评价网络的输出被定义为协状态,即代价函数对其输入的偏导数。该协状态的维数受到输入维数的影响,因而也包含了更多的信息。随着评价网络输入维数的增加,DHP控制器的计算复杂度将成倍增长,使得控制器在大规模复杂系统中的应用受到限制。而设定DHP控制器事件触发机制的难点在于,随着评价网络输出的复杂度增加,设计事件触发条件的难度也随之增加。文中利用李亚普诺夫稳定性定理,为传统的时间触发DHP控制器设计了触发阈值,制定了非周期性采样的事件触发条件,并证明了在此采样规则下系统的稳定性和神经网络的收敛性。(4)为了解决非线性离散系统的最优控制问题,提出了一种基于事件触发的HDP算法。假设被控对象具有输入状态稳定(ISS)特性,由此定义离散系统的输入状态稳定-李亚普诺夫(ISS-Lyapunov)函数,且在此基础上设计出被控系统在事件触发机制下的触发阈值。严格证明了该算法能够保证被控系统渐近稳定。仿真结果表明,与传统的时间触发HDP控制器相比,本文所提出的方法能够显著地减少控制器计算成本,同时保证与其相似的控制性能。(5)负荷频率控制(LFC)是保障电力系统安全稳定运行的重要部分,受到研究者的广泛关注。为了保障LFC的有效性和稳定性,设定比例-积分(PI)控制器作为主控制器,同时为了弥补其自适应学习能力的不足,加入了 ADP控制器作为辅助控制器。该设计既能保留预设控制器(PI控制器)中的系统信息,又能利用神经网络的学习能力,从而在保证控制稳定性的前提下,提高算法的鲁棒性和自适应性。然而,双控制器的设计产生了较高的计算成本。为了减轻该PI-ADP控制器的计算成本,以及电力系统的传输负担,提出了一种基于事件触发的PI-ADP控制。在此设计中,分别针对主控制器(PI控制器)和辅助控制器(ADP控制器)设计了事件触发更新机制,并从理论上证明了控制器的非周期性更新法则能够保证闭环系统的稳定性。最后,在总结了全文的工作基础之上指出了事件触发ADP算法进一步的发展方向,对后续的研究工作进行了展望和阐述。