论文部分内容阅读
众所周知,很多方法都可以用来设计被控系统的稳定控制器.而现实中,闭环稳定仅仅是系统设计的最低要求.最优控制不但可以保证系统的稳定性能,还能使得系统性能最优化.但是设计系统的最优控制是一个具有难度和挑战的研究课题.自适应动态规划(ADP)是利用Bellman原理求解优化和最优控制问题的一种有效方法.特别地,它能应用于非线性系统最优控制的设计.本文首次提出使用模糊逼近器(模糊双曲模型/广义模糊双曲模型)取代神经网络逼近器近似获取系统状态与值函数之间的映射关系,设计了非线性系统的最优控制器.因为模糊逼近器具有实际物理意义,所以它的结构可以由专家经验和实验结果更理性得到.进而这种新技术用于解决非线性多智能体一致最优问题.另外,目前在ADP领域,对非线性系统和时滞系统的完全无模型最优控制器的研究相对比较少,所以我们分别针对非线性系统和线性时滞系统提出了无模型最优控制的ADP算法.本文主要工作如下:1.针对传统ADP技术中神经网络没有物理意义的缺点,提出了一种基于模糊技术的自适应动态规划方法,并利用该方法设计了非线性系统的最优控制器.使用模糊双曲模型(Fuzzy Hyperbolic Model, FHM)取代神经网络作为逼近器获得系统状态与值函数之间的映射关系.由于近似模型的逼近误差导致了 Hamilton-Jacobi-Bellman (HJB)方程的误差,所以这里通过梯度下降法将该误差最小化得到最优解,进而获得最优控制器.2.模糊双曲模型不具有万能逼近性,它仅对在原点附近变化的值函数逼近效果较好.而广义模糊双曲模型在紧集上可以逼近任意光滑函数,对于值函数来说它具有全局万能逼近性.因此,我们用广义模糊双曲模型(Generalized Fuzzy Hyperbolic Model, GFHM)取代模糊双曲模型逼近HJB方程的解(值函数),设计了非线性系统的最优控制器,并且给出了该方法的稳定性分析.这种模糊自适应动态规划方法可以像基于神经网络的传统方法一样得到广泛应用.3.利用单网络模糊自适应动态规划方法解决了多智能体一致最优问题.这种方法结合了博弈理论,广义模糊双曲模型和自适应动态规划技术.首先,由Bellman原理建立了多智能体一致最优问题的Hamilton-Jacobi (HJ)方程组.然后根据博弈理论,将该方程组的解和纳什均衡之间建立起了理论联系.引入模糊自适应动态规划方法和策略迭代技术求解由GFHM得到的近似耦合HJ方程组.最后,利用Lyapunov稳定理论证明了该方法的稳定性,并且给出了权值估计误差和局部一致误差是最终一致有界的结论.4.针对模型未知的非线性系统,提出通过系统测量数据设计最优控制器的ADP算法.为了解决系统模型未知的问题,利用一个补偿器与原系统构成一个增广系统.然后得到与该增广系统相对应的HJB方程,为了最小化自适应动态规划算法中神经网络近似HJB方程的逼近误差,我们利用最小二乘法更新神经网络权值.事实上,该方法的主要思想就是在最小二乘意义下,通过采样状态,状态导数和系统输入信息更新神经网络权值.这里的更新过程是在策略迭代算法框架下实现的.5.针对模型未知的线性离散时滞系统提出了一种基于输入-输出数据的近似最优控制器.由于系统模型未知,首先构建了一个基于输入-输出数据的状态估计器.然后,利用该状态估计器,Q学习和值迭代方法设计了线性离散时滞系统的近似最优控制器.最后,给出了本文的总结,并指出了自适应动态规划理论进一步发展的方向和对未来工作的展望.