论文部分内容阅读
机器人是人类生产生活中非常重要的一种科技装备,从自动化工厂流水线、日常家庭生活到地震废墟、火灾现场,机器人遍布人类生活的各个场景,用途越来越广泛,这对机器人的性能提出了更高的要求。机器人需要在大负载、未知非结构环境中保持良好的运动性能,液压驱动型足式机器人正是为这种需求而生。液压驱动单元是液压足式机器人的运动关节驱动器,是整机运动性能的基础。现今液压驱动单元多采用以传统PID控制为核心的相关控制算法,虽然具有较好的控制效果,但机器人实际运动中接触环境工况复杂多变,该控制方法在多工况适应性方面尚不理想,在未知工况下不能保持良好的响应速度和跟随精度。机器学习是一种用计算机从数据中学习有效信息的方法,能够实时学习环境特性并改变相应的控制策略,从而改善控制效果。该方法近年来迅速得到国内外各领域学者的广泛研究。本文针对足式机器人液压驱动单元,将机器学习方法用于液压位置控制系统中,开展相关研究,使该系统具备自学习能力,从而提高系统在未知工况下的控制性能,主要研究工作包括:(1)首先对液压驱动单元位置控制系统进行数学建模,利用MATLAB/Simulink搭建其仿真模型。接着基于仿真模型,对定值PID方法和变值PID方法进行仿真研究,并对比控制效果,分析控制参数变化规律,结果表明:定值PID方法控制精度较差,自适应能力较差,变值PID方法能在多工况下取得较好的控制效果,但需要不断调整参数,实际应用范围有限。(2)为了提高PID控制方法的自适应能力,采用BP神经网络对PID参数规律进行学习,形成基于BP神经网络的自适应PID控制方法。首先确定了学习样本的采集范围,接着对学习范围内各参数按照一定间隔进行划分,并进行排列组合生成有限数量的测试工况。然后测试并记录系统在各个工况下的控制性能,用第一个神经网络拟合工况参数、控制参数和系统性能之间的关系。根据第一个神经网络计算出每个工况下不同控制方法参数的控制性能,按照一定规则选择较优的控制参数。利用第二个神经网络拟合工况参数与选择的控制参数之间的关系,并将该网络用于在不同工况下自动调整控制参数。最后进行了仿真研究,并和PID控制方法进行了对比分析。(3)为进一步提高系统在未知工况下的自适应能力,针对液压驱动单元位置控制系统,设计了一种改进的DDPG(Deep Deterministic Policy Gradient,深度确定性策略梯度)控制方法。针对智能体探索效率低的问题,设计了一种基于模糊方法的探索策略;针对网络性能不足的问题,采用了基于Armijo-Goldstein搜索准则的BFGS(Broyden-Fletcher-Goldfarb-Shanno)算法训练值函数网络;针对算法稳定性较差的问题,将策略网络的输出值与系统实时误差相乘形成新的控制律。最后进行了改进的DDPG算法的仿真研究,并与定值、变值PID方法和神经网络自适应PID方法进行对比分析。(4)基于液压驱动单元性能测试实验台,对定值PID方法、变值PID方法、基于BP神经网络的自适应PID方法和改进的DDPG控制方法进行了实验研究,并根据实验结果进行对比分析。