基于深度强化学习的机器人控制

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:fqdml
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习在近些年得到了非常深入的发展,但是大部分的研究都是倾向于如何提高神经网络学习的速度以及优化效果,缺乏对稳定性的分析。由于神经网络是一个黑箱模型,而且在大多数的算法中,神经网络都是直接作为控制器的,所以使得稳定性分析需要构建在神经网络的可解析性上。近些年来,虽然有很多学者对神经网络进行了可解析性的研究,但是目前并没有一个方法能准确的解析神经网络的所有特性,大多数的方法都只能实现对神经网络的局部解析。本文结合了深度强化学习中的SAC算法以及滑模控制,提出了一种基于特征根的强化学习方法,并命名为EBRL(Eigenvalue-Based Reforcement Learning)。其解决了深度强化学习中,直接使用神经网络来当控制器时,无法从理论上保证系统稳定的方法。在EBRL算法中,我们使用神经网络来设计滑模控制器中的参数所对应的特征根,并保证神经网络所输出的特征根总能保证系统稳定。并且为了防止控制器中参数变化的速率过大,在本文中引入了谱归一化,来限制了神经网络的输出的变化率。EBRL继承了滑模控制具有的鲁棒性和稳定性,以及深度强化学习的优化特性。使得算法在保证系统的稳定性的前提下,有着良好的鲁棒性以及优秀的控制性能。此方法的学习速度高于传统的深度强化学习方法,并且学习过程也更加稳定,而控制效果相对于深度强化学习与滑模控制也得到了较大的提升。在本文中,我们会提出两种推断过程等价,但是训练过程不等价的深度强化学习与滑模控制的结合方法,并且与SAC和滑模控制的控制效果进行仿真的比较,并提出了进一步的优化方法。为了实现算法之间性能的对比,我们利用拉格朗日力学,分别对站球机器人,平衡车以及倒立摆进行了数学建模,用于仿真对比。在站球机器人的建模中,为了方便我们对系统内力的分析,我们还利用了牛顿力学的方法对其建模,使得我们在仿真中能够判断系统的内力是否能满足控制所需的约束。为了验证算法的真实性能,我们设计并制作了以上三个机器人的硬件系统,以验证算法的稳定性,鲁棒性和通用性。
其他文献
企业家社会资本是支持企业持续发展的重要资源,这已经成为国内外学者的共识。近年来,越来越多的学者关注企业家社会资本对企业多元化战略、企业经营风险的影响,并开展了诸多
大学生就业难问题受到大众的普遍关注,其中女大学毕业生就业难的问题尤为突出。女大学毕业生就业问题直接关系到女性平等生存发展的利益,关系到数百万家庭的民生和社会的稳定
目的了解3 431名企业员工基本健康知识和理念素养水平及影响因素,为制定企业人群健康教育和健康素养促进策略提供依据。方法在河北省11个设区市采用分层整群抽样方法,选取13
【正】 伟大的五四新文化运动,开拓了中国历史的新时代;而五四文学革命,则开创了中国文学历史的新纪元。毛泽东指出:“五四运动所进行的文化革命则是彻底地反对封建文化的运
目前,我国的经济发展已经取得了举世瞩目的成就。然而经济发展带来的一系列的问题却频繁产生,其中最重要的是环境问题。随着环境在党政领导考核指标中所占的比重越来越大,各
增强UV-B辐射会对植物生长和生理生化过程产生有害效应。克隆植物中,相连的克隆分株对(Ramet pairs)经常共享资源和激素,然而鲜有关于克隆植物生理整合对异质性UV-B辐射响应