基于数据驱动Q学习的跟踪控制研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:xtwjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最优跟踪控制问题一直是控制领域的研究热点,致力于优化由跟踪误差和控制输入所构成的性能指标函数,使得目标输出能够以较优的性能成本实现跟踪。传统的求解方法需要预先知道系统动力学的部分信息甚至是全部信息,对系统动力学信息的依赖性限制了传统方法的应用范围。自适应动态规划(adaptive dynamic programming,ADP)是一种具有自学习能力和优化能力的智能控制算法,已成为有效求解未知动态系统最优控制问题的一类新方法。在实际工程应用中,系统的状态信息一般是难以测量获得的,这限制了基于状态反馈框架的ADP学习算法的应用范围。同时,由于探测噪声的存在,基于值函数逼近方法的ADP方案存在最优控制参数学习值的偏差。因此,本文构建含有评价结构和执行结构的Q学习方案,用于求解离散时间未知线性系统的二次型跟踪(linear quadratic tracking,LQT)控制问题。本文的工作可概述如下:1.针对离散时间未知线性系统,求解最优LQT控制问题。首先,将原被控系统与参考轨迹构建为增广系统。其次,利用系统的输入数据序列、输出数据序列以及参考轨迹数据序列对增广系统的状态进行重构;基于重构后的状态,推导出对应的Q函数Bellman方程。最后,基于系统的输入/输出数据,应用在线迭代算法,实时的对评价-执行结构中的参数估计值迭代更新,避开探测噪声的影响,从而获得求解LQT控制问题的输出反馈学习控制器。2.针对输出反馈Q学习算法,本文从on-policy数据驱动Q学习PI策略、off-policy数据驱动Q学习PI策略、on-policy数据驱动Q学习VI策略详细展开,并基于MATLAB仿真软件,验证算法的有效性。3.针对学习算法中初始数据不能获得的问题,本文结合内模原理特性,设计出动态输出反馈控制器,为输出反馈Q学习算法提供不可获得的初始数据,从而经过参数的自我学习与优化,获得最终的最优输出反馈学习控制器。
其他文献
[目的]本实验通过解剖大体标本,测量身高、最长肌、髂肋肌、多裂肌、腰方肌外缘至后正中线距离及厚度,为微创治疗非特异性慢性下腰痛明确手术入路,定位目标区域及界限,避免医
为了评价木通科不同地理种源在南昌市的适应性,文章通过对木通科32个地理种源435份种质资源采用隶属函数法进行适应性评价。结果表明:尾叶那藤适应性强的地理种源为江西省崇义
随着2008年金融危机的蔓延和影响的加深,中国经济发展面临着严峻的挑战和考验。经济的不景气,直接导致税收增速的放缓。自2008年下半年以来外资企业利润和税收收入增速下降,最先
为人民服务思想是毛泽东思想的核心内容,体现了中国共产党与人民群众的深情厚谊、为人民谋利益的责任担当以及甘于为信仰奉献的崇高境界。这一思想形成基础主要是中国传统文
国家对城市内涝问题愈来愈重视,随着内涝的加剧,国家出台了一系列法规规范以解决城市内涝问题,但一些问题尚无明确的法规规范进行规定指导,比如城市水利除涝系统与市政管渠系
<正>1.研究目的20世纪90年代以来,随我国城市化进程的不断加快,流动儿童的数量呈逐年递增趋势。对于小学阶段的外来务工随迁子女而言,学校是其学习、生活和适应城市的重要途
会议
2001年辽宁省旱情严重,辽河流域淡水资源严重短缺,这使辽河流域水稻产区尤其是大石桥市的水稻生产带来严峻挑战,水田用淡水由往年2.1万m3/hm2锐减到今年的1 500m3/hm2,灌溉使
经济技术开发区园林绿化是其可持续发展的重要保证。本文阐述了经济技术开发区园林绿化的重要性及需要重视的整体布局、道路绿化、植物配置、特色建设等问题,并以天津空港物