基于强化学习的倒立摆控制研究

来源 :北京工业大学 | 被引量 : 11次 | 上传用户:xrong19730911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
倒立摆问题是复杂系统控制中一个经典问题,倒立摆系统是一种非线性、多变量和绝对不稳定的系统。在控制过程中,它能有效地反映诸如可镇定性、鲁棒性、随动性以及跟踪等许多控制中的关键问题,是检验各种控制理论的理想模型。在近代的机械系统控制中,如火箭的发射、人造卫星的运行、机器人的举重及机器人的行走,都存在类似于倒立摆系统稳定控制的相似问题。因此倒立摆的研究不仅有其深刻的理论意义,还有重要的工程意义。强化学习是近年来机器学习和人工智能领域研究的热点之一,并且引起了运筹学、控制理论、机器人学等其他学科研究人员的普遍注意,成为一个多学科交叉的研究方向。强化学习不需要教师信号,它强调在与环境的交互中学习,以极大(或极小)化从环境获得的评价性反馈信号为学习目标。本课题以研究运动平衡控制技能的认知为出发点,以强化学习为研究对象,以倒立摆系统为实验模型,通过智能体对倒立摆的平衡控制研究,使智能系统具有学习能力,能在系统运行过程中逐步获取新信息,具有类似人类和动物的运动控制技能。本课题在强化学习和动态规划算法的基础上,提出了一种基于双BP网络的强化学习系统。该强化学习系统在没有先验知识的条件下,智能体通过自身神经网络的在线学习,认知倒立摆系统的平衡控制技能,最终能有效地控制不稳定的倒立摆系统。通过不同条件的实验仿真,证明了提出的强化学习系统在学习过程中有认知倒立摆系统的平衡控制技能的能力。
其他文献
在现代工业迅速发展的今天,噪声污染也愈加严重。有源噪声控制技术是近代发展起来的噪声控制技术,随着有源噪声控制技术理论研究的成熟,有源噪声控制的实现技术成为亟待解决的关
在脑电信号处理中,从头皮电极处采集的脑电信号可看作是由大脑中不同区域神经细胞的电活动共同作用的结果,其中还包含来自人体其他器官组织产生的生物电信号(如心电、肌电和
时频分析是信号处理中的重要手段之一。Gabor变换,又称短时或加窗Fourier变换,克服了传统Fourier变换在频域内无任何时域分辨力的缺陷,体现了信号的联合时频分析特性。在Heisenb
深海底集矿机是一个复杂的液压动力机械系统,传统的故障诊断方法由于需要建立对象精确的数学模型,从而在集矿机故障诊断中难以实现。为此本文采用智能诊断的理论和方法,将集
在未知环境下,无人水下航行器(Unmanned Underwater Vehicle,UUV)的自主避碰能力是保证其安全有效完成使命任务的前提和基础。通常根据声呐探测到的环境信息自主完成行为决策
伴随能源危机的加重,节能环保技术的应用与开发受到越来越多国家和政府的重视。LED光源作为第四代照明光源具有节能环保、寿命长、易维护等优点,在21世纪大功率LED照明光源会逐
基于GPS的畜牧定位系统,是为改变传统放牧方式而设计的。虽然传统的游牧习惯仍被采用,牧民也紧随现代化进程的加速,逐步结束游牧,开始定居,但是并不能从根源上解放和发展生产力。
在能源消耗日益增长、环境污染日渐严重的今天,在当今对可再生能源的开发利用中,风能由于其突出的优点而倍受关注,风力发电技术也成为各国学者竞相研究的热点。以交流励磁电机作为发电机运行的风力发电系统,利用变速恒频技术大大提高了风能的利用率。交流励磁发电机可改善电力系统稳定性,转子转速可变,具有独立的有功、无功功率调节能力。 本文对风力发电技术及变速恒频风电技术国内外研究现状作了比较全面的综述,介绍
在现代医学中,医学影像技术已成为医生必不可少的手段和工具。医学图像的好坏,直接影响着医生对病情的诊断和治疗。但医学图像在获得的过程中都会混有各种噪声。CT图像也是如
随着各种新的应用出现,数字系统的集成度不断攀升,为满足这些数字系统的故障检测需求,出现了许多智能故障检测和诊断的方法,然而在将这些方法应用到实际的故障诊断系统中后,