论文部分内容阅读
深度强化学习在近些年得到了非常深入的发展,但是大部分的研究都是倾向于如何提高神经网络学习的速度以及优化效果,缺乏对稳定性的分析。由于神经网络是一个黑箱模型,而且在大多数的算法中,神经网络都是直接作为控制器的,所以使得稳定性分析需要构建在神经网络的可解析性上。近些年来,虽然有很多学者对神经网络进行了可解析性的研究,但是目前并没有一个方法能准确的解析神经网络的所有特性,大多数的方法都只能实现对神经网络的局部解析。本文结合了深度强化学习中的SAC算法以及滑模控制,提出了一种基于特征根的强化学习方法,并命名为EBRL(Eigenvalue-Based Reforcement Learning)。其解决了深度强化学习中,直接使用神经网络来当控制器时,无法从理论上保证系统稳定的方法。在EBRL算法中,我们使用神经网络来设计滑模控制器中的参数所对应的特征根,并保证神经网络所输出的特征根总能保证系统稳定。并且为了防止控制器中参数变化的速率过大,在本文中引入了谱归一化,来限制了神经网络的输出的变化率。EBRL继承了滑模控制具有的鲁棒性和稳定性,以及深度强化学习的优化特性。使得算法在保证系统的稳定性的前提下,有着良好的鲁棒性以及优秀的控制性能。此方法的学习速度高于传统的深度强化学习方法,并且学习过程也更加稳定,而控制效果相对于深度强化学习与滑模控制也得到了较大的提升。在本文中,我们会提出两种推断过程等价,但是训练过程不等价的深度强化学习与滑模控制的结合方法,并且与SAC和滑模控制的控制效果进行仿真的比较,并提出了进一步的优化方法。为了实现算法之间性能的对比,我们利用拉格朗日力学,分别对站球机器人,平衡车以及倒立摆进行了数学建模,用于仿真对比。在站球机器人的建模中,为了方便我们对系统内力的分析,我们还利用了牛顿力学的方法对其建模,使得我们在仿真中能够判断系统的内力是否能满足控制所需的约束。为了验证算法的真实性能,我们设计并制作了以上三个机器人的硬件系统,以验证算法的稳定性,鲁棒性和通用性。