基于时间差分学习的随机跳变系统鲁棒控制

来源 :江南大学 | 被引量 : 0次 | 上传用户:caichengzyokokok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实际工程应用中,由于生产需要、工况变化或紧急的突发状况,系统包含着多种工作模式,既有随时间的状态连续演化,又有受离散时间驱动的多模态跳变,这些不同的工作模式之间根据一定的转移规律发生跳变,此类系统被称为随机跳变系统。跳变转移概率刻画了模态之间的随机转换规律,因此成为研究这类系统的关键因素。转移概率完全已知情况下的随机跳变系统的研究已经形成了完整的理论体系,但转移概率完全已知不符合工程实际,这使得随机跳变系统的研究成为挑战。作为强化学习的核心思想之一,时间差分(Temporal Difference,TD)学习用于估计Markov决策过程的最优策略并获得收益最大化。一方面由于TD学习不依赖于模型概率参数,且通过引用资格迹的在线更新机制,使得算法具有快速的收敛性;另一方面随机跳变系统的控制问题可以转化为Markov决策过程的策略求解问题,因此本文将TD学习引入转移概率未知情形下的随机跳变系统的鲁棒控制,通过观测模态轨迹使值函数收敛于黎卡提方程的解,得到使系统闭环稳定并满足性能要求的控制器参数。本文主要研究工作如下:(1)介绍了几种主流的TD学习算法的基本概念、学习框架和算法流程,结合控制领域的应用场景,说明TD学习在系统模型未知的条件下处理控制问题的方法体系,包括系统动态参数未知的线性系统控制方法、转移概率信息未知的随机跳变系统控制方法等,为后续章节的研究工作提供理论基础。(2)设计了针对Markov跳变系统鲁棒控制问题的TD(λ)学习算法。该算法运用值函数逼近的思想,其具体流程分为两个步骤:(Ⅰ)策略估计。每次模态发生跳变时更新资格迹和值函数,直到每个模态下的值函数收敛。其中资格迹表征了未来的模态观测值相对当前模态的权重关系,有利于实现算法迭代的合理化、灵活化。(Ⅱ)策略更新。根据值函数的收敛值更新控制策略。同时,证明了值函数能够收敛于黎卡提方程的解,即控制策略具有收敛性。。通过与已有方法的对比,验证了TD(λ)学习鲁棒控制方法在转移概率未知条件下控制结果的有效性和优越性。(3)将TD(λ)学习算法拓展到Semi-Markov跳变系统的H∞控制问题。首先,在模态转移概率已知情形下,推导了基于黎卡提方程的稳定性和H∞控制条件。进而,根据黎卡提方程设计了无需转移概率信息的TD(λ)控制算法,该算法能够获得依赖于模态滞留时间的H∞控制序列。最终,将理论成果应用到宏观经济系统中,验证了算法学习的准确性和控制方法的实用性。
其他文献
在焊接领域中对结构加强筋的焊接是一类常见的工程。结构加强筋是指用来在结构设计中为了加强结构面的承载能力而设计的一类构件,这一类构件往往在前期固定时往往会存在些许变形和大量的飞溅干扰点,以往对这一类工件的焊接一般依靠人工手动操作,焊接的工作量大,重复性高且焊接现场环境复杂存在危险。在自动焊接阶段大部分的焊缝定位方法是基于二维图像结合几何方法提取出焊缝,该方法提取出的焊缝对结构加强筋缺乏适用性,整体定
火灾是发生最频繁、破坏性最大的灾害之一,它严重威胁着人类生命和财产安全以及自然生态环境。图像型火焰检测技术有效地弥补了传统的传感器火焰检测装置传播速度慢、误报率高、无法适用于室外大空间等弊端,得到广泛的关注与研究。提取火焰特征,使用模式识别算法检测火焰是图像型火焰检测的一类主流方法。但是,现有的图像型算法大多是针对已经形成火灾的火焰进行分析识别,对于未形成火灾的早期火焰高危点的检测能力却很有限。而
颗粒物传感器,属于气体传感器的一种,作为环境检测系统(Environmental Monitoring Management System,EMIS)的重要组成部分之一,越来越受到社会与国家的关注。颗粒物传感器不仅在环境检测领域,也在诸如工业、医疗等领域发挥作用。而光散射法因具备测量速度快、实时检测、精度高、无损耗、便携性好等优势,近些年来在颗粒物传感器的市场化应用中越来越多。本文主要针对光散射算
养殖水域溶解氧的产生与消耗过程对于水草布局、人工增氧等具有重要的价值,因此研究溶解氧的机理模型非常重要。光合作用对于养殖水域溶解氧产生至关重要,但是文献上鲜有围绕光合作用建立养殖水域溶解氧机理模型。针对该问题,本文考虑了河蟹养殖水域的各种环境因素,考虑光合作用活动,研究了溶解氧的机理建模和增氧控制方案,具体工作如下:1.针对以水草为初级生产者的河蟹养殖池塘,建立了溶解氧系统动力学模型。综合考虑了水
近年,科学技术的充分发展,极大地助力了扫地机器人行业的迭代与发展。从第一款扫地机人诞生至今国内外企业对扫地机器人一直持续着更新与设计。而大量新技术的介入,市场上扫地机器人产品愈渐复杂,用户在使用中的学习成本变高。本课题来源于江南大学设计学院的研究生校企合作项目。本文的主要目的是以全流程体验的眼光,通过优化交互指引的设计,引导消费者在智能家用扫地机器人使用过程中得到最佳的用户体验。本文的研究方法是针
随着互联网技术的飞速发展和工业4.0战略的提出,全球制造业在往高精度、高柔性、高智能程度方向发展。科技水平的提高使人们进一步追求高生活质量,人们开始关注自身居住环境的舒适性,如建筑材料的环保性等。在我国每年新增20亿平方米建筑面积的背景下,木质材料作为典型可持续建筑材料,其在民居、旅游等建筑场所等得到广泛应用。作为木质建筑主要构成材料——木结构组合墙体,却面临着生产自动化程度低、产品报废率高的生产
红外与可见光图像的融合技术是图像融合领域中一项十分重要的研究。红外图像以亮度的形式反映不同物体的热辐射差异,从而具有夜间可视性;可见光图像拥有丰富的纹理信息,且与人类的视觉系统一致。通过图像融合技术将这两种图像进行有效的融合,融合后的图像能够在突出红外目标的同时保持足够多的纹理信息,可更好地实现目标监控、跟踪等任务。传统的图像融合方法主要是基于多尺度变换(Multi-Scale Transform
微流控技术(Microfluidics)是由多门学科交叉的先进研究领域之一。该技术通过将医学、生物和化学等领域中所包括的取样、混合、反应、样品分离、检测等基本实验操作集成至厘米级的芯片上,从某种程度上取代了传统的生化检测实验室的功能。所以,微流控传感系统在生物检测、药物筛选、污染物监测等领域都具有巨大的应用前景。近年来,食品安全事故频发,临床反应严重,食品安全问题已经成为现代社会关注的热点。目前常
湿度(Humidity)是一个重要的环境参数,在人类日常生活、生产活动中扮演了重要的角色。目前使用最广泛的高分子电容式湿度传感器凭借其测试量程宽、线性度高、响应时间短、长期稳定性好等优点受到了研发人员的广泛关注。但是,随着湿度传感器应用领域的扩展,人们对湿度传感器的各项特性指标提出了更高的要求,基于常规聚酰亚胺(Polyimide,PI)感湿材料的电容式湿度传感器因其高稳定性和高线性度成为了主流,
随着国家“新基建”概念的提出,电梯的智能化改造也逐步升温。作为连接互联和控制层的核心设备,网关不再满足于基本的数据采集和转发,而将其视为电梯物联网的重要计算节点。通过智能算法的研究和应用,能够使网关实现物联网微数据中心的作用,更有效地保证电梯稳定安全运行。本文以电梯物联网网关为研究对象,针对电梯网关的协议适配问题,异常数据帧检测问题,以及电梯曳引机轴承数据挖掘问题,展开智能方法研究。主要研究和创新