论文部分内容阅读
在过去的近二十年中,由于信息科学技术的飞速发展,使得包括机器人、冶金、化工、微电网、航空、风力发电等行业发生了巨大的变化。如何使用工业过程中产生的大量数据来实现目标系统的优化控制的问题,一直都是工程控制领域的难点问题之一。随着大数据技术的发展,基于数据驱动的控制方法得到了前所未有的关注。因此,本文将数据驱动技术与自适应动态规划(ADP)算法相结合,研究了离散时滞系统的优化控制问题。首先,针对模型未知的离散系统的跟踪控制问题,提出了一种基于ADP算法的最优跟踪控制方法。提出了一种基于数据驱动ADP算法的控制方法,有效地解决了离散时滞系统的最优控制和跟踪问题。针对带有扰动的离散系统的跟踪控制问题,提出了一种新型的基于ADP的跟踪控制方案。最后,通过一些数值仿真验证了本文所提出的方法的有效性。本文的主要内容和贡献可概述如下:
(1)针对模型未知线性离散系统的最优跟踪控制问题,提出了一种基于ADP的最优跟踪控制方案。首先,通过系统变换,将最优跟踪问题转化为无穷域跟踪误差动态的最优调节问题。其次,使用控制输入的历史数据和误差系统的状态,构建了扩展的误差状态方程。最后,针对本章所研究的跟踪控制问题,分别提出了基于历史数据的策略迭代和值迭代控制方法。
(2)提出了一种新型迭代ADP算法,解决了多时滞线性离散系统的最优跟踪控制问题。首先,通过坐标变换,推导出了多时滞系统的最小时滞等价系统,并且给出了两个系统的等价条件。其次,针对最优跟踪控制问题,构建了增广最小时滞系统,并设计了相应的带有折扣因子的增广性能指标函数。在此基础上,提出了一种无模型的迭代ADP算法,用于求解多时滞线性系统跟踪问题的最优控制律。
(3)针对一般线性离散时滞系统的最优跟踪问题,提出了一种数据驱动ADP算法来获取最优跟踪控制策略。首先,在系统内部状态已知的情况下,提出了一种无模型的基于增强Q学习的跟踪控制方法。其次,在系统动态和内部状态都未知的情况下,基于系统的输入、输出和参考轨迹组成的历史数据集,构建了一种新的基于数据的增广状态方程,并将其作为状态估计。然后,推导出了一种新的关于线性二次跟踪问题的数据驱动贝尔曼方程。最后,提出了一种基于数据驱动ADP的最优跟踪控制方案,有效地解决了一般时滞系统的线性二次跟踪问题,并且不需要已知系统动态和状态的信息。
(4)提出了一种基于数据驱动ADP的优化控制方法,有效解决了多时滞离散时间系统的最优控制问题。首先,推导出了适用于数据驱动ADP算法的等价多时滞系统,并给出了该等价时滞系统的存在条件。然后,根据时滞系统的特点,以输入和输出数据的形式,推导出了一种新的基于数据的状态方程和贝尔曼方程。最后,提出了一种新的数据驱动ADP算法,在仅使用测量到的系统输入和输出数据的条件下,解决了线性多时滞系统的输出反馈最优控制问题。
(5)针对一类带有扰动的离散时滞系统的H∞跟踪控制问题,研究了一种基于数据驱动ADP算法的自适应跟踪控制方案。首先,将被控系统和参考轨迹系统组成一个增广的离散时滞系统。然后,将该系统变换为一个由系统输入、输出和参考轨迹表示的离散时滞系统,这使得系统的状态完全由该系统的运行数据所替代。接下来,根据贝尔曼最优性原理,推导出了关于H∞跟踪控制问题的基于数据驱动的贝尔曼方程。最后,提出了一种基于数据驱动ADP算法的控制策略,从而解决了离散时滞系统的H∞跟踪控制问题。
(1)针对模型未知线性离散系统的最优跟踪控制问题,提出了一种基于ADP的最优跟踪控制方案。首先,通过系统变换,将最优跟踪问题转化为无穷域跟踪误差动态的最优调节问题。其次,使用控制输入的历史数据和误差系统的状态,构建了扩展的误差状态方程。最后,针对本章所研究的跟踪控制问题,分别提出了基于历史数据的策略迭代和值迭代控制方法。
(2)提出了一种新型迭代ADP算法,解决了多时滞线性离散系统的最优跟踪控制问题。首先,通过坐标变换,推导出了多时滞系统的最小时滞等价系统,并且给出了两个系统的等价条件。其次,针对最优跟踪控制问题,构建了增广最小时滞系统,并设计了相应的带有折扣因子的增广性能指标函数。在此基础上,提出了一种无模型的迭代ADP算法,用于求解多时滞线性系统跟踪问题的最优控制律。
(3)针对一般线性离散时滞系统的最优跟踪问题,提出了一种数据驱动ADP算法来获取最优跟踪控制策略。首先,在系统内部状态已知的情况下,提出了一种无模型的基于增强Q学习的跟踪控制方法。其次,在系统动态和内部状态都未知的情况下,基于系统的输入、输出和参考轨迹组成的历史数据集,构建了一种新的基于数据的增广状态方程,并将其作为状态估计。然后,推导出了一种新的关于线性二次跟踪问题的数据驱动贝尔曼方程。最后,提出了一种基于数据驱动ADP的最优跟踪控制方案,有效地解决了一般时滞系统的线性二次跟踪问题,并且不需要已知系统动态和状态的信息。
(4)提出了一种基于数据驱动ADP的优化控制方法,有效解决了多时滞离散时间系统的最优控制问题。首先,推导出了适用于数据驱动ADP算法的等价多时滞系统,并给出了该等价时滞系统的存在条件。然后,根据时滞系统的特点,以输入和输出数据的形式,推导出了一种新的基于数据的状态方程和贝尔曼方程。最后,提出了一种新的数据驱动ADP算法,在仅使用测量到的系统输入和输出数据的条件下,解决了线性多时滞系统的输出反馈最优控制问题。
(5)针对一类带有扰动的离散时滞系统的H∞跟踪控制问题,研究了一种基于数据驱动ADP算法的自适应跟踪控制方案。首先,将被控系统和参考轨迹系统组成一个增广的离散时滞系统。然后,将该系统变换为一个由系统输入、输出和参考轨迹表示的离散时滞系统,这使得系统的状态完全由该系统的运行数据所替代。接下来,根据贝尔曼最优性原理,推导出了关于H∞跟踪控制问题的基于数据驱动的贝尔曼方程。最后,提出了一种基于数据驱动ADP算法的控制策略,从而解决了离散时滞系统的H∞跟踪控制问题。