基于强化学习的双轮机器人的平衡控制研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:h120568
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双轮机器人的概念于20世纪90年代提出来,属于轮式机器人的范畴。因其结构简单、运动灵活、适合在狭小的空间内工作,在民用、军用、航天上有着广泛应用前景。它的平衡原理来源于倒立摆的控制,是非线性、强耦合、多变量和自然不稳定的系统,是检验各种控制理论的理想模型。本文在北京工业大学人工智能研究所研制的双轮机器人的基础上,提出新的学习算法。   机器学习是研究计算机怎样模拟或实现人类的学习行为以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能,它是人工智能的核心。强化学习是一种以环境反馈作为输入的、适应环境的机器学习方法,是交互式学习方式,其主要的特点为“试错”和“延迟回报”。它不需要预测和辨识模型,在模型未知以及没有先验经验条件下,利用评价性的反馈信号实现决策的优化。因此强化学习具有强大的自学习和在线学习能力。   鉴于平衡控制问题对于双轮机器人的重要性,本文对平衡控制问题进行了重点研究。又鉴于强化学习算法存在维数灾问题和收敛慢问题,我们在已有强化学习算法的基础上加以改进和提高,提出了新的学习系算法,并应用到对双轮机器人的平衡控制中。使双轮机器人具有自学习能力,在运行过程中逐步获取新信息,具有类似人类和动物的自学习能力。论文取得以下主要成果:   (1)在表格型Q学习算法的基础上,提出了一种基于神经网络的改进的Q学习方法。该学习方法采用神经网络逼近Q值函数,同时采用一种Boltzman分布的SoftMax行为选择策略。通过实验仿真,验证了该学习系统的有效性。   (2)在强化学习和动态规划算法的基础上,提出了基于BP网络的强化学习系统。通过BP神经网络的在线学习,认知双轮机器人的平衡控制技能,最终有效地控制不稳定的双轮机器人。通过实验仿真,证明了该强化学习系统在学习过程中有认知双轮机器人的平衡控制技能的能力。   (3)在强化学习和动态规划算法的基础上,提出了基于内部回归神经网络的强化学习系统。该学习算法改变了评价神经网络和动作神经网络的网络结构,同时采用权值的适合度轨迹来加速学习过程。通过实验仿真,表明了该学习算法性能良好。   通过对双轮机器人的建模与仿真分析,证明了模型及控制方法的可行性,获得了相应的仿真结果数据,为实际物理系统的控制提供了理论依据和数据参考,同时也证明了物理系统结构的合理性。
其他文献
在旋转飞行载体上工作的摄像系统,成像器件随载体做旋转运动,造成获取的目标图像的旋转。为了便于人眼观察及对目标实施自动跟踪识别,需要采用消旋技术对旋转的图像进行处理,恢复
微网是一种新型的电力系统,它对提高电力系统的稳定性、经济性、能源利用率和环境效益具有重要的意义。在满足系统实时供需平衡的前提下,如何优化调度微网内各机组的供电方式、
空气细颗粒物(PM2.5)是我国大部分城市面临的首要环境问题,对空气质量、人体健康和气候变化造成严重影响。PM2.5包含多种成分,水溶性离子、碳质颗粒和无机元素既是PM2.5的主要
冷热电联产型(Combined Cooling,Heating and Power,CCHP)微电网可同时满足冷热电三种类型负荷的能源需求,是一种能源高效利用的供能方式。冷热电联产型微电网能量管理的实质是
工业无线网络技术是一种本世纪初新兴的,面向设备间信息交互的无线网络技术,适合在恶劣的工业现场环境下使用,是对现有无线技术在工业应用方向上的功能扩展和技术创新。工业无线
利用人工电信号控制动物的神经系统,使动物变成“机器人”,我们称之为“动物机器人”。从上世纪九十年代开始,人们利用生物控制技术,从动物运动的感受传入或神经支配入手,实
学位
21世纪伊始,月球探测进入了又一个活跃期,各航天大国开始了以重返月球为目标的新的探月行动,已经发射的多个月球探测器,外星球采样要面临地球上一般不会遇到的两个问题。第一个是
月球车是用于月面巡视的移动机器人,是人工智能、自动控制、机器人、信息科学及计算机技术等多学科的结晶,具有重大的科研和应用价值,受到了包括中国在内的世界各国的重视。在月
在工业4.0和“两化融合”的背景下,大量传统IT技术、通信协议和通用设备被引入工业控制系统(Industry Control System,ICS)中,使得工控系统更加开放。同时,工业控制系统与上层管