连续时间自适应动态规划及其在复杂系统控制中的应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wskiqpk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自适应动态规划(Adaptive Dynamic Programming,ADP)结合了现代控制理论中的最优控制和自适应控制、计算智能中的人工神经网络以及机器学习中强化学习的思想,可以解决传统动态规划中的“维数灾难”问题,是一种具有学习和优化能力的智能控制方法,在求解连续时间复杂非线性系统的控制问题中具有极大的潜力。在当今社会生活和工业领域中存在着大量的复杂系统,这些实际系统通常具有未知的动态特性、高度的非线性和不确定性,难于建立机理模型,而传统的控制理论一般都依赖于精确的数学模型,致使其应用受到了很大限制。因此,研究连续时间ADP理论及其在复杂系统控制中的应用具有重要价值。本文的主要工作和贡献体现在以下三个方面。  1.对于有限时间最优输出跟踪控制问题,构建了一个由系统状态和参考轨迹共同作为状态的增广系统,从理论上证明了增广系统的有限时间最优调节控制问题与原问题的等价性。在模型部分未知的情况下,提出了基于策略迭代的ADP学习算法来在线实时求解最优控制策略,然后给出了算法的性能分析,并给出了基于线性参数化结构的实现方法以及仿真验证。  2.研究了模型未知的弱耦合非线性系统最优控制问题,提出了基于数据的在线学习ADP迭代算法。根据最优性原理,原系统转化为三个解耦并降阶的子系统,由此给出了基于子系统的控制策略,从理论上分析了该控制策略的近似最优性。对于每个子系统,采用了评判神经网络和执行神经网络分别近似其值函数和控制策略,同步调整权值,并给出了基于最小二乘法的实现方法以及仿真验证。  3.研究了复杂系统控制问题中的仿射非线性系统鲁棒控制以及内部交联非线性系统分散控制,提出了无模型积分策略迭代ADP算法。该方法不对未知系统进行辨识,仅利用在线测量数据,并且同时更新值函数和控制策略。对于鲁棒控制问题,理论分析证明了在名义系统的最优控制策略基础上改变反馈增益所得控制律的鲁棒性。对于交联系统分散控制问题,理论分析证明了在独立子系统最优控制策略基础上改变反馈增益所得控制律组的稳定性。最后在多机电力系统控制问题的仿真实验中验证了所提方法的有效性。
其他文献
针对激光划片机的控制需求,本文设计了一种基于“PC机+DSP控制卡”的激光划片机控制系统。控制系统可以从用户操作命令或加工图形文件中获得加工信息,然后控制激光器和二维运
学位
嵌入式系统以其低功耗,低成本,强可靠性,高稳定性和专用性强等特点获得了越来越广泛的应用。以ARM处理器为核心的嵌入式平台是当前嵌入式系统的主流。Linux操作系统以其开放
近年来,随着计算机图形学的发展和计算机处理能力的提高,人们在计算机上建立了各种模型来动态描述作物的发芽、生长、死亡等全部过程已经成为一种可能。然而,到目前为止,由于作物
随着信息技术的发展以及以卫星、飞机等作为平台的图像遥感愈加普遍,自然场景图像的分析与重构技术得到极大的研究与发展,在环境、资源、矿产、灾害监测、军事等领域获得了广
学位
随着信息化进程不断深入各行各业,在人们的日常生活和工作中网络正发挥着越来越重要的作用,已经是现代人生活不可缺少的一个重要组成部分。为提高影响力,各级政府和企事业单
近年来机器人大赛在国内受到广泛的关注和欢迎,各高校和单位都以此为契机,为本校的机器人爱好者提供一个良好的动手操作平台,展现自己学校科研能力的舞台。但从整体上看,我国
现代高技术条件下的局部战争中,装备保障系统的地位越来越重要。在装备执行作战、训练任务的过程中,装备保障的好坏直接关系到其效能的发挥。装甲装备是我陆军主战装备之一,凭借
三维物体识别是计算机视觉重要分支之一,已经被广泛应用于生物医学、遥感遥测、工业检测、航空航天等领域。目前,三维物体识别技术主要是在建立目标图像的数据库的前提下,从
随着科学技术的飞速发展,研究人员所收集到的数据高速增长,体现在数据数量上的提高和维度上的增长。传统的统计学和机器学习方法可以很好的应对数据数量的增长,但是没有办法解决
日益严重的荒漠化已经成为全球范围内环境问题的焦点,而其中草场荒漠化的现象更为突出,本文对草场荒漠化的关键因素及驱动机制进行了建模分析,模拟展现了草场荒漠化过程中的突变