论文部分内容阅读
倒立摆系统是一个典型的多变量、非线性、高阶次、强耦合的自不稳定系统,只有采用行之有效的控制方法才能使其稳定在平衡位置附近。控制中的许多关键问题,如跟踪问题、镇定问题、鲁棒性问题、非线性问题等都能在倒立摆的控制过程中反映出来。同时,双足机器人的行走、卫星和火箭的位姿调整等均与倒立摆系统具有相似之处。因此,对倒立摆系统的研究具有重要的理论价值和应用价值。传统的倒立摆控制方法如PID控制、LQR控制等都是基于模型的控制,实际中很难获得倒立摆系统的精确的数学模型。强化学习作为机器学习的一种,其与监督学习不同之处在于其不需要教师信号,它强调与环境的交互过程中获得评价性反馈信号,利用评价信息来实现行为决策的优化,不需要知道系统模型,这就避免了因建模造成的误差。因此,本文将强化学习应用于倒立摆的起摆及平衡控制任务中,重点研究了强化学习算法在倒立摆平衡控制中的应用。本文的主要成果有:(1)起摆控制方面,研允了基于Q学习算法的倒立摆起摆控制。一级倒立摆起摆仿真控制实验表明了Q学习算法在倒立摆起摆控制中的有效性。(2)平衡控制方面,在深入研究实现了最小二乘策略迭代(Least Square Policy Itcration,LSPI)以及基于稀疏核机器的最小二乘策略迭代(Kernel-based LSPI,KLSPI)两种有效的解决倒立摆平衡控制问题的强化学习算法的基础上,针对LSPI算法逼近能力、泛化能力差,KLSPI算法计算复杂度高、计算成本大的问题,提出了一种基于极限学习机(Extreme Learning Machine,ELM)的最小二乘策略迭代(ELM-LSPI)算法,在提高传统LSPI算法逼近精度、泛化能力的同时,控制了其计算成本。一级倒立摆控制仿真实验结果表明KLSPI算法和本文提出的ELM-LSPI算法均能提高LSPI算法的收敛能力和泛化能力,但ELM-LSPI算法的计算成本远小于KLSPI算法,更利于后续的实物研究和在线算法的拓展。