论文部分内容阅读
双轮机器人的概念于20世纪90年代提出来,属于轮式机器人的范畴。因其结构简单、运动灵活、适合在狭小的空间内工作,在民用、军用、航天上有着广泛应用前景。它的平衡原理来源于倒立摆的控制,是非线性、强耦合、多变量和自然不稳定的系统,是检验各种控制理论的理想模型。本文在北京工业大学人工智能研究所研制的双轮机器人的基础上,提出新的学习算法。
机器学习是研究计算机怎样模拟或实现人类的学习行为以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能,它是人工智能的核心。强化学习是一种以环境反馈作为输入的、适应环境的机器学习方法,是交互式学习方式,其主要的特点为“试错”和“延迟回报”。它不需要预测和辨识模型,在模型未知以及没有先验经验条件下,利用评价性的反馈信号实现决策的优化。因此强化学习具有强大的自学习和在线学习能力。
鉴于平衡控制问题对于双轮机器人的重要性,本文对平衡控制问题进行了重点研究。又鉴于强化学习算法存在维数灾问题和收敛慢问题,我们在已有强化学习算法的基础上加以改进和提高,提出了新的学习系算法,并应用到对双轮机器人的平衡控制中。使双轮机器人具有自学习能力,在运行过程中逐步获取新信息,具有类似人类和动物的自学习能力。论文取得以下主要成果:
(1)在表格型Q学习算法的基础上,提出了一种基于神经网络的改进的Q学习方法。该学习方法采用神经网络逼近Q值函数,同时采用一种Boltzman分布的SoftMax行为选择策略。通过实验仿真,验证了该学习系统的有效性。
(2)在强化学习和动态规划算法的基础上,提出了基于BP网络的强化学习系统。通过BP神经网络的在线学习,认知双轮机器人的平衡控制技能,最终有效地控制不稳定的双轮机器人。通过实验仿真,证明了该强化学习系统在学习过程中有认知双轮机器人的平衡控制技能的能力。
(3)在强化学习和动态规划算法的基础上,提出了基于内部回归神经网络的强化学习系统。该学习算法改变了评价神经网络和动作神经网络的网络结构,同时采用权值的适合度轨迹来加速学习过程。通过实验仿真,表明了该学习算法性能良好。
通过对双轮机器人的建模与仿真分析,证明了模型及控制方法的可行性,获得了相应的仿真结果数据,为实际物理系统的控制提供了理论依据和数据参考,同时也证明了物理系统结构的合理性。