基于深度强化学习的四足机器人步态分析

来源 :山东大学 | 被引量 : 0次 | 上传用户:xiaoyeziagan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相比于在平坦地面具有更好运动效果的轮式和履带式机器人,腿足式机器人能够适应更复杂的地形,进行更灵活的姿态控制,有效跨过或躲避障碍物,能够应用到复杂环境的探索、搜救、运输等多方面领域中。四足机器人凭借相对简单的结构、灵活的运动效果、出色的稳定性能和优秀的动态能力等优势,从腿足式机器人中脱颖而出。
  传统的四足机器人控制方法一般会采用模块化控制器,但模块化控制器设计难度较大,并且需要耗费大量时间进行参数调试。而基于数据驱动的强化学习能够自主进行学习优化,以实现最优的控制效果,可以有效解决模块化控制器的难点。为了使四足机器人获得更加高效、优越的运动性能,本文将强化学习引入四足机器人控制中,本文的主要研究内容如下:
  1.四足机器人仿真建模及运动学分析。在开源仿真软件PyBullet中构建四足机器人虚拟仿真模型。采用D-H法进行机器人正运动学和逆运动学分析,为四足机器人步态规划和运动控制奠定了基础。
  2.强化学习控制器设计。进行状态空间、动作空间和奖励函数的设计,并针对不同的强化学习算法,构建相应的强化学习控制器。在奖励函数计算过程中加入模糊控制系统,获得奖励值与四足机器人前向速度的变化关系函数,提高算法的学习效果。
  3.基于强化学习控制器的对角小跑步态分析。融合参考轨迹与强化学习动作空间,进行运动轨迹规划。分别采用PPO、A2C、DDPG三种深度强化学习算法对四足机器人进行运动训练,实现了稳定的对角小跑步态运动。从运动稳定性、强化学习优化目标和能耗情况等方面对三种学习算法进行分析比较,DDPG算法可以使机器人获得更好的运动效果。仿真实验表明,强化学习控制器能够获得稳定的对角小跑步态运动,可应用于四足机器人运动控制。
其他文献
超分辨率恢复是计算机视觉和图像处理中一个重要的研究问题。超分辨率恢复是一种基于软件算法的技术,具体是指通过对数字图像信号的分析,将一帧或多帧低分辨率图像进行恢复重建,将其转化成更高分辨率图像或视频的技术。在实际中,超分辨率恢复有着广泛应用,如医疗图像分析、视频监控、生物特征识别和安全性等领域。除了提升图像质量外,它还有助于提升其他计算机视觉任务的效果。因此,对提升超分辨率恢复技术的研究具有非常重要
海洋中蕴藏着丰富的自然资源,探索海洋逐渐成为世界经济发展的新动力,各海洋国家已经把经济发展重点从陆地转向海洋,不断加大对海洋的开发力度,作为发展中国家的中国,人口基数大,土地资源紧张,发展海洋经济迫在眉睫。  探索和开发海洋的前提条件是具有一定下潜深度的深潜器,工欲善其事必先利其器,一国深潜器的开发利用水平直接关乎探索海洋的深度和广度。深潜器的结构支撑材料是“海洋金属”-钛合金,深海作业过程中钛合
群智能优化算法起源于生物仿生学,起初受启发于各种生物的种种生存和活动行为。自从出现以来,群智能优化技术作为一项重要的优化技术,在工业生产,工程应用和社会生活中都得到了广泛使用,并随之不断进行改进和创新。作为近几年新提出的算法,狮群优化算法具有优秀的机制设计和较大的发展潜力,不失为一种值得深入研究的算法。  在行为模式机制上,狮群算法对草原狮群的围猎进行数学模拟。划分种群为狮王,成年母狮,幼狮三类个
人类交流过程中,80%的信息来源于肢体语言,准确识别人体的动作对改善人机交互有着重要意义。骨骼数据拥有时间和空间两个维度的信息,两个维度之间伴随着共现特征,如何更好的提取和利用时空特征存在很大的挑战。在获取数据的过程中,还存在多视角问题,同一个动作可能出现完全不同的表现,不仅会增加模型构建的难度,同时还存在模型识别率低的问题。  针对骨骼动作识别时空特征提取难的问题,本文提出一种基于图注意力网络的
学位
随着服务机器人在家庭情景中担任重要的角色,自然的人机交互成为影响用户满意度和人机共存舒适度的关键因素之一。如何在人机交互的过程中注重用户情感的识别、并在理解用户情感状态的基础上,让机器人在复杂多变的家庭环境中提供与情感相匹配的舒适度良好的服务,受到研究学者的广泛关注。由于人类情感的表达是一个复杂连续的过程,目前针对人类情感的识别重点逐渐从离散情感识别过渡到连续情感识别,同时单一模态的连续情感识别存
下三角非线性系统是一类被广泛研究的系统,许多工程问题,例如化学反应器系统、机器人机械臂系统及倒立摆系统等,都可以建模为此类系统。在建模过程中,时滞及输入饱和现象往往是不可避免的,它们会影响系统的正常运行,尤其对于下三角非线性时滞系统,输入饱和所带来的不良影响还没有被很好地解决。因此,研究具有输入饱和的下三角非线性时滞系统具有重要的实际意义。然而,已有成果中大多都是运用反步设计方法进行研究的,设计过
近年来,倾转旋翼无人机因为既有旋翼垂直起降的优势、又有固定翼远距离快速飞行能力,逐渐成为无人机领域的研究热点。现有倾转旋翼无人机机构形式多为在固定翼无人机外部添加多副旋翼,增加了无人机自身的重量。同时倾转旋翼无人机在飞行过程中,旋翼下洗流作用在固定翼上表面,使固定翼上下表面压力差变小,降低了固定翼的升力。  本文提出的两栖倾转翼无人机弥补了倾转旋翼的缺陷,有效避免了旋翼产生的下洗流对固定翼造成的影
反馈非线性系统的研究是控制理论核心内容之一,已被应用到工业、国防及航天等领域,吸引了国内外学者的广泛关注.很多实际工程系统,都可以经过适当的变量替换,建模并转化为反馈非线性系统.为了更好的满足实际系统性能需求,针对具有信息约束的控制研究是非常有意义的.在本文中,信息约束可细分为量化约束、状态约束以及输出约束.它们具有节省通信资源、提高系统安全指数等优点.目前,虽然针对具有信息约束反馈非线性系统的控
交通场景复杂多变,为汽车配备安全可靠的辅助驾驶系统可以大大降低交通事故的发生,提高城市交通运行效率。有经验的驾驶员因选择性注意机制,可以快速定位场景中显著区域,过滤掉冗余信息,抽取与驾驶活动相关的关键信息。因此模仿人类的选择性注意机制,预测交通场景下的显著性区域或者目标,对辅助驾驶系统的发展具有重要的研究意义。本文对复杂交通场景下的驾驶员注意力预测方法展开研究,旨在预测驾驶员的注意力区域或者检测到
学位
近年来,随着人工智能的不断发展以及人们对公共场合安全问题的重视,行人再识别任务成为人工智能领域研究的热点。行人再识别任务,是指判断从多个视野不重叠的摄像头出现的行人图像是否为同一行人,主要通过行人的底层视觉特征与高层不变属性特征进行判断,而不需要行人的主观配合,有着重大的研究价值。另一方面,在海量数据中准确高速的找出目标人物并辨别身份对安防等任务有着重要的应用价值,同时行人再识别的研究对于相册聚类