论文部分内容阅读
最优跟踪控制问题一直是控制领域的研究热点,致力于优化由跟踪误差和控制输入所构成的性能指标函数,使得目标输出能够以较优的性能成本实现跟踪。传统的求解方法需要预先知道系统动力学的部分信息甚至是全部信息,对系统动力学信息的依赖性限制了传统方法的应用范围。自适应动态规划(adaptive dynamic programming,ADP)是一种具有自学习能力和优化能力的智能控制算法,已成为有效求解未知动态系统最优控制问题的一类新方法。在实际工程应用中,系统的状态信息一般是难以测量获得的,这限制了基于状态反馈框架的ADP学习算法的应用范围。同时,由于探测噪声的存在,基于值函数逼近方法的ADP方案存在最优控制参数学习值的偏差。因此,本文构建含有评价结构和执行结构的Q学习方案,用于求解离散时间未知线性系统的二次型跟踪(linear quadratic tracking,LQT)控制问题。本文的工作可概述如下:1.针对离散时间未知线性系统,求解最优LQT控制问题。首先,将原被控系统与参考轨迹构建为增广系统。其次,利用系统的输入数据序列、输出数据序列以及参考轨迹数据序列对增广系统的状态进行重构;基于重构后的状态,推导出对应的Q函数Bellman方程。最后,基于系统的输入/输出数据,应用在线迭代算法,实时的对评价-执行结构中的参数估计值迭代更新,避开探测噪声的影响,从而获得求解LQT控制问题的输出反馈学习控制器。2.针对输出反馈Q学习算法,本文从on-policy数据驱动Q学习PI策略、off-policy数据驱动Q学习PI策略、on-policy数据驱动Q学习VI策略详细展开,并基于MATLAB仿真软件,验证算法的有效性。3.针对学习算法中初始数据不能获得的问题,本文结合内模原理特性,设计出动态输出反馈控制器,为输出反馈Q学习算法提供不可获得的初始数据,从而经过参数的自我学习与优化,获得最终的最优输出反馈学习控制器。