论文部分内容阅读
自适应动态规划(Adaptive Dynamic Programming,ADP)结合了现代控制理论中的最优控制和自适应控制、计算智能中的人工神经网络以及机器学习中强化学习的思想,可以解决传统动态规划中的“维数灾难”问题,是一种具有学习和优化能力的智能控制方法,在求解连续时间复杂非线性系统的控制问题中具有极大的潜力。在当今社会生活和工业领域中存在着大量的复杂系统,这些实际系统通常具有未知的动态特性、高度的非线性和不确定性,难于建立机理模型,而传统的控制理论一般都依赖于精确的数学模型,致使其应用受到了很大限制。因此,研究连续时间ADP理论及其在复杂系统控制中的应用具有重要价值。本文的主要工作和贡献体现在以下三个方面。 1.对于有限时间最优输出跟踪控制问题,构建了一个由系统状态和参考轨迹共同作为状态的增广系统,从理论上证明了增广系统的有限时间最优调节控制问题与原问题的等价性。在模型部分未知的情况下,提出了基于策略迭代的ADP学习算法来在线实时求解最优控制策略,然后给出了算法的性能分析,并给出了基于线性参数化结构的实现方法以及仿真验证。 2.研究了模型未知的弱耦合非线性系统最优控制问题,提出了基于数据的在线学习ADP迭代算法。根据最优性原理,原系统转化为三个解耦并降阶的子系统,由此给出了基于子系统的控制策略,从理论上分析了该控制策略的近似最优性。对于每个子系统,采用了评判神经网络和执行神经网络分别近似其值函数和控制策略,同步调整权值,并给出了基于最小二乘法的实现方法以及仿真验证。 3.研究了复杂系统控制问题中的仿射非线性系统鲁棒控制以及内部交联非线性系统分散控制,提出了无模型积分策略迭代ADP算法。该方法不对未知系统进行辨识,仅利用在线测量数据,并且同时更新值函数和控制策略。对于鲁棒控制问题,理论分析证明了在名义系统的最优控制策略基础上改变反馈增益所得控制律的鲁棒性。对于交联系统分散控制问题,理论分析证明了在独立子系统最优控制策略基础上改变反馈增益所得控制律组的稳定性。最后在多机电力系统控制问题的仿真实验中验证了所提方法的有效性。