一类非线性系统的强化学习自抗扰控制研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:delphiall
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
未知非线性系统的控制一直以来都是控制领域内的重要课题,由于系统动态未知,许多需要机理模型的控制算法都难以实施,而强化学习方法由于能够在未知的环境中通过与环境的交互自主学习,找到近似最优控制策略且不需要系统结构信息等先验知识,使其成为未知非线性系统控制的理想算法。近些年来,强化学习已在这一领域取得诸多成果,然而,现实中的非线性系统往往受到各种扰动的影响,而强化学习的抗扰能力却不够强大,在大扰动下系统输出往往会大幅偏离设定值,系统性能严重衰退。针对这一问题,本文研究了如何在具有强非仿射特性的未知非线性纯反馈系统控制中提高强化学习的控制精度和抗扰能力。  由于传统强化学习算法的动作和状态都是在有限集中,因而在非线性系统控制中应用最多的是的连续强化学习算法,也就是动作-评价网络结构的强化学习。在应用中,该类算法存在这样的一些问题:  1.对扰动的抑制能力十分有限。随着扰动逐渐增大,控制效果急剧衰退,直至发散。  2.当参考轨迹连续变化时,尤其是变化轨迹的弯曲程度较大时,追踪误差会变得很大。  针对强化学习在未知非线性系统控制中存在的问题,本文首先建立了一套动作-评价网络结构的连续强化学习算法,它采用了一个特别的性能指标函数以避免使用系统动态函数,然后做了如下的改进:  1.为了提高控制系统追踪连续轨迹的能力,尤其是在参考轨迹曲度较大时的控制效果。我们设计了一个与参考轨迹有关的因子,利用它动态地调整执行器网络的权重更新速率,使得系统在参考轨迹曲度变大时能更加及时地调整控制策略。  2.为了提高控制系统的抗扰能力,利用扩张状态观测器将未知的外部扰动和内部参数摄动等效为一个总扰动,将其应用在控制律中,抵消内外扰动的影响,削弱系统的不确定性,帮助强化学习提高其抑制扰动能力。  3.最后,我们将强化学习算法与线性自抗扰相结合,用自抗扰控制器代替传统的神经网络执行器,调整了控制器的权值更新方式,大幅提高了系统的抗扰能力和控制精度。同时,待调参数数目减少,大大调高了算法的训练速度。  为了验证改进强化学习算法的有效性,将它们应用在未知非线性纯反馈系统的追踪控制上,并给出基于扩张状态观测器的强化学习算法(reinforcement learning-extended state observer,RL-ESO,基于改进1和2)和基于线性自抗扰的强化学习算法(reinforcement learning-active disturbance rejection control,RL-ADRC,基于改进3)的原理与设计流程。在纯反馈系统追踪控制的实验中,控制器仅获得系统的输出和控制输入等信息,而无需其他结构信息。结果表明,与原算法相比,RL-ESO和RL-ADRC都有更强的抗扰能力和控制精度,后者还具有更快的训练速度。
其他文献
六足机器人以其独特的高承载能力、地形适应能力强、灵活性好等特性使其在多个领域得到了广泛的应用,已经从传统的机器人延伸到智能机器人,并且在星球探测、深海探索等新的领域不断的拓展。但是,基于目前的控制算法只适应于特定的地形,忽略了人的作用。本文以载人六足机器人作为研究对象,设计人机之间的交互,引入辅助驾驶决策,实现各种地形下的稳定通过,保障驾驶员的人身安全。首先,设计了六足机器人的结构,搭建了六足机器
学位
记忆元件是指具有记忆特性的元器件,它包括忆阻器、忆容器以及忆感器。这三种器件都是非线性器件,其状态取决于该器件的历史状态,且当输入正弦信号时,忆阻器的i-v曲线、忆容器的q-v曲线和忆感器的i-φ曲线都是滞回曲线。记忆元件因其独特的性质,被广泛应用于存储、人工神经网络、非线性科学等领域。本文对基于记忆元件的非线性电路进行了研究,主要进行了以下几个方面的工作:1.根据忆阻器原理,构建了二阶以及三阶忆
对时间序列进行数据挖掘获取其蕴含的有用信息具有重要的应用价值。然而相比传统静态数据,时间序列数据的各个变量值之间具有次序关系,而静态数据中,不同变量值之间的次序是
随着三相电机驱动系统在工业、商业、军事、交通、航空航天等领域的广泛应用,提高系统的可靠性就变得尤为重要。三相电机驱动系统一般由电机、逆变器、传感器和控制器构成,其中逆变器却是故障高发区,其可靠性直接关系到整个驱动系统的安全和稳定。为了提高系统的可靠性,本文针对三相电机驱动系统中逆变器的故障检测和容错控制策略展开了深入研究。首先,本文研究了逆变器开路故障检测方法,包括专家系统法、电流检测法和电压检测
在自然界和现代化工业生产过程中,气/固两相流动现象广泛存着,它与人类的生产和生活密切相关。目前,在能源、冶金、石油、轻工以及化工等行业中的许多生产设备都与两相流动工况
在现代科学技术的研究和应用领域,特别是在应用数学,物理学、控制工程、生物学及其他相关学科领域中,其基本的数学模型大多数是偏微分方程.非线性发展方程通常是指把时间t作为其
当今社会,随着计算机科学的产生与飞速发展并伴随这人类对安全保密领域愈发的重视,各种智能监控以及基于人类生理特征的身份验证方法飞速发展。人脸识别技术是通过摄像头采集
自从E.N.Lorenz发现第一个混沌吸引子以来,混沌的广阔前景吸引了广大学者的关注,推动了混沌科学的发展脚步,混沌控制也成为了非线性领域的研究热点,其中混沌同步占了极大的比重。
众所周知,神经网络的稳定与同步可被用于建立化学和生物系统,保密通信系统,信息科学,图像处理等等领域。神经网络的实用性吸引了许多学者去研究中立神经网络的稳定性问题。当
随着目前陶瓷相关产品需求量的日益增多,辊道窑控制系统被广泛应用于其生产中。然而,国内辊道窑的应用引入较晚,且存在控制水平不高、算法粗糙简单、控制效果不佳、输出易产生振