基于强化学习的腿式机器人运动控制与决策研究

来源 :科技创新导报 | 被引量 : 0次 | 上传用户：caoenjia

【摘要】

：

【作者】

：

侯远韶

【出处】

：

科技创新导报

【发表日期】

：

2021年3期

【关键词】

：

深度学习强化学习运动控制路径规划

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　DOI：10.16660/j.cnki.1674-098x.2011-5640-9053
　　摘要：传统的腿式机器人在未知环境中进行运动控制和路径规划时收敛速度慢，路径不够优化具有一定的局限性，无法满足运动控制系统对实时性和精确度的要求。针对这一情况，将深度学习的学习能力与强化学习的决策能力有机地结合起来，利用深度学习具有自动特征提取和深度结构的学习优势，以及强化学习在闭环学习系统中对未知环境进行探索、反馈再探索鲁棒性强的特点，从而解决机器人在运动控制中的复杂序贯决策得到最优路径规划，最终实现腿式机器人合理的运动控制与决策。
　　关键词：深度学习强化学习运动控制路径规划
　　中图分类号：TP391.4 文献标识码：A 文章编号：1674-098X（2021）01（c）-0111-04
　　Research on Motion Control and Decision of Legged Robot based on Reinforcement Learning
　　HOU Yuanshao
　　（Department of Mechanical and Electrical Engineering， Henan Industry and Trade Vocational College， Zhengzhou ，Henan Province， 451191， China ）
　　Abstract： Traditional legged robots converge slowly when performing motion control and path planning in an unknown environment， and the path is not optimized enough to have certain limitations， and cannot meet the real-time and accuracy requirements of the motion control system. In response to this situation， the learning ability of deep learning and the decision-making ability of reinforcement learning are organically combined， and deep learning has the advantages of automatic feature extraction and deep structure learning， as well as reinforcement learning to explore unknown environments in a closed-loop learning system. The feedback explores the characteristics of strong robustness， so as to solve the complex sequential decision-making of the robot in the motion control to obtain the optimal path planning， and finally realize the reasonable motion control and decision-making of the legged robot.
　　Key Words： Deep learning; Reinforcement learning; Sport control; Route plan
　　1 強化学习
　　1.1 强化学习原理及系统组成
　　机器学习算法作为人工智能算法的核心，包含了有监督、无监督以及强化学习算法。其中强化学习算法作为一种典型的序贯决策问题对无训练样本数据具有很大的优势，通过求解输入输出之间的最优解来解决优化问题，是一种对控制策略进行优化的框架。强化学习作为一种学习算法通过模拟人的学习方式，利用已知的环境数据，不断优化自身的决策，实现收益的最大化，最终得到准确的位置判断和决策控制[1]。标准的强化学习主要受环境状态、动作、探索率以及状态转移模型等8个因素的影响[2]。
　　1.2 深度学习与强化学习
　　深度学习作为典型的机器学习算法也称为深层结构学习，通过对原始数据进行逐级提取从而得到抽象的高层表征[3]。深度学习利用分层抽象的思想处理复杂的高维数据，得到具有典型代表性的机器学习有效特征，同时深度学习可以利用网络中任意一层的输出数据作为特征的表达，进而实现特征提取与转换，并反馈给高层数据，继而得到更加复杂抽象的特征[4]。
　　强化学习算法主要通过对人类学习的心理学以及控制理论中路径规划的最优控制分析，获得知识进而改进策略以适应复杂多变的环境[5]。主要分为模型已知的强化学习算法和模型未知的强化学习算法，两种算法都需要通过环境交互得到信息，不同之处在于其中模型已知的强化学习算法可以利用已知模型对值函数进行计算，进而得到不同控制策略下的最佳输出结果，主要代表算法有价值迭代算法和策略迭代算法;模型未知的强化学习算法，不依赖精确的模型，具有很好的适应能力，通过比较利用与探索问题进而得到最优策略，主要代表算法有时序差分算法和DQN算法[6]。强化学习具体流程如图1所示。　　1.3 深度强化学习与路径规划
　　传统的路径规划算法以及运动控制策略可以实现基本的路径规划和避障运动，但面对快速移动的障碍物和复杂背景时往往出现规划效率不高、收敛速度慢等问题。另一方面，对于腿式机器人来说不管是要进行避障还是路径规划，对周边环境信息的感知是第一步，因此通过深度强化学习强大的决策能力和感知能力，通过对外部环境数据进行感知，进而分析决策，最终将已知的原始高维数据转化为末端的控制机制。
　　虽然强化学习在智能控制系统中得到了很大应用，很好地结合了运筹学、控制以及其他学科，为强化学习融入人工智能领域奠定了基础。但是由于路径规划数据具有随机性和依赖于传感器获取外部数据，具有一定的时延性，且没有既定的标准和模型可以依赖，因此强化学习存在初期学习时对策略的探索比较依赖，后期侧重对最优化的求解而忽略对新策略的寻找，具有一定的局限性。因此，强化学习需要在维数求解、对模型的收敛速度、对已知和未知问题的研究现状以及时间信度分配的问题进行研究。
　　2 腿式机器人运动控制
　　2.1 路径规划算法
　　传统的路径规划算法可以分为局部路径规划和全局路径规划，全局路径规划针对环境完全已知代表算法有粒子群算法、遗传算法和A*算法;局部路径规划针对外部环境未知或者只有部分已知环境信息，通过传感器实时感知外部数据代表算法有动态窗口算法以及人工势场法。传统的路径规划算法作为典型的慎思框架，首先需要通过对外部环境进行感知继而建立规划模型，然后做出运动策略，最后实现运动，在这一过程中难以对突变环境作出应对，速度慢、同时容易陷入局部最优而非全局最优，因此具有一定的局限性[7]。深度强化学习具有强大的自我学习能力和感知能力，可以实现腿式机器人的运动控制与路径规划，只需要对最终轨迹目标进行确定，而无需对其进行主动参与，就可以实现机器人与外部环境的交互，进而对网络模型进行训练，最终实现路径的合理规划以及运动控制和决策[8]。经典的路径规划算法如图2所示。
　　2.2 腿式机器人步行策略
　　腿式机器人具有非线性、多自由度以及多驱动模式等特点，具有较多的不稳定因素因此建立合适的动力学模型是腿式机器人步行策略必不可少的步骤。传统的腿式机器人步行策略通过对步态设计以及模型运用，实现机器人行走的稳定性以及路径规划，主要分为动态步行策略和静态步行策略。动态步行策略，通过分析机器人的运行速度以及质心，将运动问题简化，生成关节轨迹，进而利用逆运动方程进行反向求解步态轨迹，对模型的精度要求较高;静态步行策略，通过对步行过程中的重心投影计算得到其步态轨迹，如果其重心投影一直在支撑的区域内，那么其步态具有一定的稳定性但速度较慢。因此，腿式机器人步行策略需要建立物理模型以避免动力模型中参数的理想化假设与实际行走运动存在的误差，最终实现腿式机器人的运动控制以及及时避障。
　　2.3 深度强化学习的运动控制
　　传统的强化学习算法虽然能够在一定程度上对简单的目标运动控制和路径规划作出分析判断，但面对复杂环境和快速移动的障碍物时，传统的强化学习方法往往难以应对。而另一方面，由于移动机器人的运行环境复杂多变，目标和障碍物受各种因素的影响，具有不确定性，因此将强化学习的决策能力与深度学习擅长对事物表征特点结合起来，进而提高算法对未知环境的求解，继而得到准确的数据输出与路径规划。
　　在进行深度强化学习的运动控制时，需要考虑以下问题：由于深度强化学习善于对像素类数据进行处理，而非图像数据缺乏相应的特征信息因此处理能力不足;同时在缺乏全局信息的情况下，机器人无法对外部环境做出全局判读，进而导致决策数据波动，值函数的收敛性能不好，难以有效实现运动控制。基于此，需要在原始的深度强化学习基础上进行改进，主要包括对传感器采集的数据进行降维处理，记忆网络进行长短时设计以及改进奖赏函数和经验回放。
　　3 基于深度强化学习的运动控制与决策设计
　　3.1 避障策略
　　移动机器人在进行路径规划与运动控制时，不可避免要进行避障策略的研究。移动机器人通过外部传感器感知器路径规划过程中存在的动态或静态干扰因素，继而改变规划选择新的路径，最终到达终点。移动机器人避障一方面依赖于传感器获取外部数据，常见的传感器有超声波测距仪、红外测距仪、激光以及视觉传感器;另一方面，则依赖于避障算法，常见的避障算法有基于向量场直方图（VFH）、势场法（PFM）、模糊逻辑以及神经网络等，模糊逻辑的核心在于模糊控制器的训练，而神经网络方法在于训练模型的建立，这些方法虽然可以对大部分的障碍物作出合理判断，但不具有普遍适用性。基于强化学习的避障策略是一個反复迭代的过程，这种算法只有一个值函数数据，通过多次迭代，实现两个问题的循环往复即由已知策略求解值函数，再根据值函数优化策略，直到全局最优解的出现。具体流程为设计状态空间，继而对离散动作数据进行优化，奖赏函数的选择、动作策略规划，最终进行深度网络结构设计。
　　3.2 结论及仿真
　　由于深度强化学习需要多次迭代，对计算机硬件要求较高，因此搭建仿真环境需要合适的仿真工具以及软硬件设备，本文采用ROS Kinect操作系统作为机器人框架，仿真环境则采用开源的Gazebo9.0;硬件则采用64G内存，20G显存，CPU则采用因特i7处理器，主频为3.2G。为了减少系统的运行时间，通过将路径规划模型加速计算，使代码运行速率加快，进而提高仿真运行速率。最后通过对大量实验数据结果进行分析可知，基于强化学习的腿式机器人运动控制与决策，收敛速度快，路径规划具有较高的成功率，在面对复杂多变的外部环境时，可以很好地进行避障运动，进而实现高精度的运动控制与决策。
　　参考文献
　　[1] 刘全，翟建伟，章宗长，等.深度强化学习综述[J]. 计算机学报， 2018，41（1）：1-27.
　　[2] 高阳，陈世福，陆鑫.强化学习研究综述[J].自动化学报，2004，30（1）：86-100.
　　[3] 付如彬，李亮，徐成，等.基于强化学习的仿生机器鱼节能研究[J].北京大学学报.自然科学版，2019， 55（3）：12-17.
　　[4] 董培方，张志安，梅新虎，等.引入势场及陷阱搜索的强化学习路径规划算法[J].计算机工程与应用， 2018（1）：129-134.
　　[5] 吴晓光，刘绍维，杨磊，等.基于深度强化学习的双足机器人斜坡步态控制方法[J].自动化学报，2020：73-78.
　　[6] 张自东，邱才明，张东霞，等.基于深度强化学习的微电网复合储能协调控制方法[J]. 电网技术，2019， 43（6）：1914-1921.
　　[7] 吴保胜，郭宇，王发麟，等. 基于改进蚁群算法的线缆路径规划技术研究[J]. 计算机工程与应用， 2018，54（10）：236-241.
　　[8] 王志中.基于改进蚁群算法的移动机器人路径规划研究[J].机械设计与制造，2018，323（1）：248-250.

其他文献

管截面形状对颗粒毛细效应影响的离散元仿真

DOI：10.16660/j.cnki.1674-098x.2011-5640-4026　　摘要：垂直振動置于颗粒床的竖直空心小管，颗粒床中颗粒会沿竖直空心管向上攀升。本文将圆形截面管和等面积正六边形截面管置于同等振动强度、同种颗粒床内进行数值模拟，对比分析二者之中颗粒运动状态的异同点。给出了管内颗粒数量随时间的变化曲线，圆形截面管内颗粒数量在仿真结束前已经达到稳定，且要少于正六边形截面管内颗粒

期刊

颗粒毛细效应振动逆重力运输

涡流传感器安装调试应注意的问题分析

摘要：电涡流传感器具有灵敏度高，线性度高，结构简单，线性测量范围宽，非接触测量，可在油气水等恶劣环境下连续工作特点，实现信息远距离传输控制优势，广泛应用于工业生产等领域位移、偏心、转速等物理量在线检测，为精密诊断技术提供全息动态特性，对电涡流传感器研究具有重要意义。目前对涡流传感器研究集中于电磁学模型机理，测量精度提高等方面。本文简述涡流传感器工作原理，进口涡流传感器技术性能指标，论述涡流传感器

期刊

涡流传感器安装调试注意问题工作原理

全金属螺杆减速器设计及运动学分析

DOI：10.16660/j.cnki.1674-098x.2011-5640-4822　　摘要：针对现有的涡轮钻具减速器存在的齿轮模数小、轮齿抗弯强度不足、惯性力不易平衡、传动效率低等问题，设计了一种新型的全金属螺杆减速器，该减速器主要由曲柄、螺杆副、花瓣式联轴器和输出轴等组成。为了使其获得最佳输出性能，以螺杆输出转速为研究对象，建立了减速器的3D模型，利用Adams软件对输出转速进行运动学仿

期刊

螺杆减速器全金属间隙值运动学仿真平稳性

玉山县玉山一中城北分校规划设计

摘要：“一座书香溢谷的现代书院”这种规划理念，将玉山的传统文化、玉山一中老校区的符号特征融入新校区的规划之中，带来了新校区的两大主要特点：自由的院落布局，形成富有特色的雙园林核心空间;升华的情景再现，将新老校区的文化基因有效传承。通过努力把校区建成经得起历史检验的精品工程。　　关键词：校园规划特色文化设计　　中图分类号：TU985 文献标识码：A 文章编号：1674

期刊

校园规划特色文化设计

一种水尺观测装置的设计与研究

DOI：10.16660/j.cnki.1674-098X.2011-5640-7246　　摘要：水尺计重，适用于价值不高或不易使用衡器计重的海运散装固态商品的计重。对承运的船舶通过观测船舶吃水，求得船舶的实际排水量和船用物料重量，以计算所载货物的重量。具有省时、省力、省费用的优点，为国际贸易和运输部门所乐于采用。目前国内水尺计重的鉴定人员通常采用租用拖轮或小船绕大船一周和无人机摄像等方式观测水

期刊

水尺观测仪水尺计重可平衡升降的水尺观测装置水尺摄像头

基于WebGIS的地下水水质监测与评价系统设计实现

DOI：10.16660/j.cnki.1674-098x.2011-5640-3511　　摘要：地下水既是重要的城市供水水源，也是重要的旱期农业灌溉水源，然而地下水面临着来自农业、工业和城市排放污染的威胁，因此地下水水质监测和评价对于公众健康和粮食安全具有重要意义。研究以GIS平台为基础，综合使用计算机Web技术和网络技术，通过构建等值线和热力图等多种地下水质评价方式，完成对区域内地下水水质的

期刊

地下水水质监测评价WEBGIS

消防灭火机器人火场应用技术分析

摘要：为保障人民生命财产安全和消防安全，消防灭火机器人火场应用技术具有优良的发展空间。本文主要介绍消防灭火机器人火场应用技术的消防价值和关键能力，并简要概述消防灭火机器人火场应用技术在辅助消防灭火内攻行动、火灾等级及火情趋势分析、智能巡检、安全监督和升级消防系统等方面的具体应用，并合理探究了消防灭火机器人火场应用技术的发展趋势。　　关键词：消防灭火机器人智能巡检安全监督消防系统　　中图分类

期刊

消防灭火机器人智能巡检安全监督消防系统

我国低碳城市试点的政策设计逻辑分析

摘要：一直以来，大自然环境的好坏与我们的生产、生活，乃至生存都是息息相关的。而随着工业化与城镇化进程的推进，高楼大厦越来越多，树木覆盖面积却越来越少;工业生产流程逐渐精细，二氧化碳排放量却有增无减，自然的生态环境正在不断地被破坏着。长此以往，青山绿水的负压也越来越重，随之而来的便是全球气候变暖、生态环境失衡、自然灾害频发。尤其是近年来，全球暖化的现象愈加明显。在大环境下人们也开始并逐渐重视保护环

期刊

低碳城市试点政策设计逻辑研究

春季不同绿地类型对空气PM2.5削减效果的研究

摘要：PM2.5导致的大气污染问题已经成为中国经济发展需共同面临的问题。城市绿地是削减PM2.5的有效途径。本文以西安工程大学临潼校区作为研究区域，系统探讨各绿地类型与PM2.5削减率的关系以及PM2.5削减率与郁闭度、绿地面积和植物高度的相关性，并通过对西安市绿地的PM2.5年吸附量进行研究，试图得出不同的绿地类型的PM2.5削减率及其量化关系，从而为西安市绿地配置和PM2.5治理提供基础数据

期刊

绿地类型削减率吸附量PM2.5

基于CAN总线的智能康复轮椅数据采集系统设计

摘要：本系统以STM32F407ZGT6微控制器为核心，采用可靠性高、实时性强和灵活性高的CAN总线数据采集方案。主要采集智能康复轮椅上超声波传感器、激光传感器、MPU6050六轴传感器、压力传感器及电池电压的实时数据。并对采集到的实时数据进行算法优化处理，由串口转CAN通信模块上传至CAN总线。上位机可根据CAN总线上实时环境数据对康复轮椅进行智能控制。与目前智能轮椅相比，主要特点是增加了颈椎

期刊

CAN总线智能轮椅STM32F407ZGT6

基于强化学习的腿式机器人运动控制与决策研究

其他学术论文