基于深度强化学习的六足机器人运动规划

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wuheman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
六足机器人由于具有运动方式多样、稳定性好、承载力强等优点,面对复杂的、非结构化的地形具有较强的适应能力,其应用场景较为广泛,如抢险救灾、星际探索等。对于其运动规划的研究,一直是六足机器人的研究热点之一。目前,六足机器人的运动规划较多地采用了以数学模型构建为主的模块化控制的方法,将运动规划分为路径规划和轨迹规划分别进行研究。但是由于六足机器人是具有多传感器的多输入多输出系统,其结构较为复杂,因而带来了模型的和状态估计的不确定性,数学建模的难度较大。深度学习是一种端到端的模型拟合方式,通过对深度神经网络进行合理的设计和训练,可以从数据输入直接得到动作输出,因此可采用深度学习来降低建模的难度。强化学习是一种通过不断试错的方式进行学习并得到决策能力的机器学习方式,可将其用于机器人的运动规划研究,只是传统的以表格形式进行价值函数更新的强化学习算法,难以处理六足机器人高维连续的状态空间和动作空间。而将深度学习和强化学习相结合的深度强化学习算法结合了二者的特点,因此可以采用该算法来进行六足机器人的运动规划研究。本文以一种六足机器人为研究对象,基于深度强化学习算法对其进行了运动规划研究,主要研究内容如下:1.根据六足机器人的运动学特性,分析和创建了六足机器人的状态空间和动作空间,并根据实际的运动规划问题设计出了相应的奖励函数。2.基于近端策略优化算法,在状态空间和动作空间已设计完成的基础上完成对整个算法的设计。另外,在仿真软件V-rep中,搭建了机器人的仿真模型,设计了不同的地形环境,进行了模型的训练和算法的实现。3.针对算法对样本的需求量较多、部分结果出现局部最优等问题,通过将状态空间中的地形信息改用卷积神经网络来进行处理,优化了对状态信息的处理方式,另外,还通过改变地形的大小和障碍物数量的方式,引入了课程学习来进行辅助训练。4.通过在实体六足机器人上利用RGB-D深度相机等传感器获取到地形信息等状态空间信息,并基于在仿真环境中所得到的模型执行相应动作,进行了实体实验,成功将基于深度强化学习实现的六足机器人的运动规划算法,从仿真环境中应用到了实体六足机器人上。
其他文献
新能源共享汽车是一种基于共享经济的新型出行模式,在以往的研究中,研究者普遍忽略车辆的电量问题,但是随着我国新能源汽车在共享汽车行业的占比越来越高,车辆续航里程和充电问题已经是不可再忽略的因素,否则相关研究就脱离了实际意义。因此,本文针对共享汽车的运营问题,并以车辆续航里程和充电时间为背景,分别对新能源共享汽车中的最小车辆编队、车辆调度、以及定点拼车等进行研究。主要内容如下:1.针对考虑车辆续航里程
本文的主要目标是在各种未说明的空间约束下,分析不同强化学习策略对机器人器械护士(RSN)应用的影响,尤其是对其“到达者”任务的影响。这一任务是机器人操纵任务中最重要的方向之一。本文提供了我们的对于不同空间约束下的“到达者”任务的实验结果和评估。我们使用了强化学习算法DDPG-HER和SAC-HER对各种未说明的空间约束进行测试。本算法基于7 DOF机械臂进行实验评估。实验结果采用奖励价值和成功率作
本论文设计、研究了国内大型枢纽机场下穿通道群的综合监控系统。该机场下穿通道群包含了国内某大型枢纽机场的四条下穿通道,用于让机场内部车辆快速穿越飞机滑行道,提升机场运营效率。而本文设计的机场下穿通道综合监控系统可以使得机场管理人员在同一个平台上对机场下穿通道群的现场环境,实时交通状况,附属设备状态及各类异常报警事件进行监控及管理,保障车辆在下穿通道的安全行驶。本文在参考了公路隧道监控系统的基础上,并
基于视觉的目标物体位姿识别具有广泛的应用场景,例如利用机械臂完成目标工件的抓取,分拣与姿态调整等等。当前构建一套成熟的物体位姿识别系统协助机械臂抓取还存在许多挑战。本论文从工业实际应用出发,利用传感器获取初始的彩色图像与深度图像数据,结合目标物体模型参数等作为先验知识,完成目标物体的位姿识别。针对应用中需要处理的物体存在的弱纹理,复杂形状等特性,提出了一种利用物体轮廓特征和消费者级RGBD传感器的
现今,电脑与手机等智能设备普及到每家每户,游戏已逐步成为大众休闲时间的首选。在硬件与技术不断发展提升的同时,游戏开发技术也在不断的进步,以达到日益精细和高质量的游戏品质。本研究论文设计与实现了一个完整的游戏项目。在项目中,构建了实体组件系统(Entity Component System,简称ECS),并在此架构模式下开发游戏功能与逻辑。同时,为了使功能逻辑与底层脱离,达到独立性与可移植性,本研究
目的龋病是最常见的口腔疾病之一,致龋菌的检测对龋病的预防和诊断具有重要意义。经典的平板菌落计数法耗时费力;分子生物学方法虽检测时间相对较短,但其所用设备昂贵,技术要求较高,不利于普及和推广。针对这一现状,本研究拟通过对四氧化三铁纳米颗粒(Fe3O4 Nanoparticles,Fe3O4 NPs)和DNA构成的纳米界面进行设计与改进,构建一系列生物传感器用于口腔细菌检测,期望其不但能发挥灵敏度高、
同频混合信号的单通道盲分离在成对载波多址(Paired Carrier Multiple Access,PCMA)非合作通信中广泛应用。对于单通道接收的混合信号,非合作第三方难以构造出信号分离的正定条件,无法开展有效的信息解调。研究如何实现信号的单通道盲分离,对提高通信信号侦察能力具有重大意义。本文在盲分离研究中引入了深度学习方法,降低了盲分离的复杂度,并且具有更强的适应性,可以在多种时变的信道下
随着机器人科学技术的发展,软体机器人受到了越来越多的研究者的关注。软体机器人一般用具有柔性、弹性的材料制作而成,与传统的刚性机器人相比,它具有形变能力、运动能力以及安全性上的优势,同时在医疗领域,对于手术机器人的研究已经成为了一个热门课题。因此在本文中将两者结合起来,设计末端能够跟随跳动的心脏进行手术操作的机器人系统。软体手术机器人心脏跟踪系统的难点在于,软体机器人的建模方法更为复杂,因为软体机械
现阶段我国的老龄化进程加剧,人口老龄化会带来诸多的健康问题。因此,针对有健康问题的老年人群体,除了定期的诊疗外,对他们的生理参数进行实时监控有助于跟踪和掌握其身体状况,对疾病后期的康复以及治疗过程提供依据。传统的监护设备存在体积大、线路多、功能单一以及监护费用高等缺点。此外,传统的监护设备通常存在于医院等集中治疗的场所,无法实现老年人群体在家监护等需要长期监护的场所。随着传感器技术、微型化集成技术
目的:通过测量正常人颌骨表面特征点数据,研究上、下颌骨轮廓外形间的内在联系,为跨中线颌骨缺损的个性化重建设计提供参考。方法:应用Proplan CMF 3.0手术规划软件对正常成年人颌骨CT数据(Dicom格式)进行三维重建,定义并描记16个颌骨重建关键位点,测量由其构成的20项外形参数。借助SPSS 22.0软件对颌骨外形数据进行统计分析。设置上颌骨全失或下颌骨全失的两种极端缺损情况,运用标准化