基于深度强化学习的双臂机器人控制研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:xushihuinuaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在机器人相关技术的大力发展下,机器人已经进入人类的日常生活,不只局限在工厂中。随着应用场景的多变,单机器人的使用已不再能够满足实际需求。双臂或多臂机器人协同控制作为未来的一个重要的研究方向,极具研究价值与意义。抓取物体是机械臂的主要应用,而双臂之间协作抓取则是一个相对较难实现的操作。当前,通过对机器人的运动学模型进行精确地建模,可实现机器人末端夹持器到空间基底坐标的转换,进而使用传统的控制方法实现对机械臂运动的控制。但是,传统的控制方法并不适用于非结构化环境中的任务。当任务的复杂度增加之后,机器人的控制难度难以想象,尤其是在多机器人协作领域中,因为需要考虑更多可能会遇到的问题,而深度强化学习的兴起为解决该问题提供了新的思路和方法。本文以UR3搭建的双臂机器人为研究对象,基于多智能体强化学习算法,实现深度强化学习方法对双臂机器人的控制。本文的主要研究工作如下:(1)介绍了机器人的正逆运动学关系,对机器人的双臂进行运动学建模,并推导逆运动学公式。在Gazebo仿真环境中搭建双臂机器人的任务场景,利用深度相机识别目标物体,控制机械臂运动到目标位置并完成抓取任务。(2)使用多智能体深度强化学习算法训练双臂机器人完成双臂协作抓取任务。针对在机械臂抓取任务中,为了解决面临的奖励稀疏问题,引入Hindsight Experience Reply(HER)算法。将两种算法结合,用于实现双臂机器人的协作控制。首先使用Multi-Agent Deep Deterministic Policy Gradient(MADDPG)和HER结合算法训练机器人抓取目标物体。然后,针对训练过程中双臂抓取成功率不高的问题,对MADDPG算法进行改进,提出改进的多智能体强化学习算法,最后提高了双臂的抓取成功率。(3)在双臂抓取任务中,仅使用深度强化学习算法存在从零开始学习问题。针对该问题,引入模仿学习,提出基于模仿学习的控制方法。在引入模仿学习后,不仅进一步提高了机器人双臂抓取成功率,还加快深度强化学习的速度,最终智能体能够学习到一个更加优秀的控制策略。
其他文献
改革开放后我国经济飞速发展了 40多年,部分居民通过自身的努力完成了早期的财富积累,根据建设银行发布的《私人银行2019》报告显示,2019年我国高净值人群已达到197万人,从需求端考虑,私人银行市场已经发展成熟,未来发展前景较为良好。G银行济南分行于2010年开设私人银行业务,经过10余年的发展培养了一批忠实的高净值客户,但是近三年内,分行内私人银行业务的管理资产增长较为缓慢,相较于2015-2
学位
癌症转移是造成癌症相关死亡的重要原因。转移形成是一个复杂的级联过程,是循环肿瘤细胞(Circulating tumor cells,CTCs)与转移前微环境(Pre-metastatic niche,PMN)相互作用的结果。目前,大多数抑制癌症转移的策略都针对于CTCs,忽略了转移前微环境在转移过程中的重要作用。转移前微环境是由原位肿瘤分泌的细胞因子、细胞外囊泡及其分泌物质动员的髓系来源的细胞与转
学位
伴随国内医疗行业和医疗市场的持续进步与发展,医院之间的竞争愈加激烈。二级医院在区域竞争中既受到三级医院的人才、设备优势挤压,又受到下级医院在便捷性上的挑战,处在夹缝中求生存、求发展的位置。医院属于高知识密度企业,而对于二级医院来说,要在竞争中获得发展的空间,人才水平的提升必不可少。但是从人才引进的角度来看,二级医院对于高水平人才的吸引力远不如三级医院,因此,对现有员工的培训提升是二级医院的必由之路
学位
随着科学技术的进步,服务机器人逐渐走进千家万户,为解决家务劳动、老人赡养等问题提供了便利。在服务机器人的诸多控制方式中,基于语言交互的控制方式更符合人类日常交流习惯,因而成为最理想的方案。要实现准确而稳定的语言控制,语言指令解析是一个重要的环节,只有准确的解析出指令中的关键实体信息,才能更好的完成后续的问题回答、动作执行等任务。在实际应用场景中,机器人会面临各种复杂的指令,这些指令中往往包含一些陌
学位
阿尔茨海默症(Alzheimerdisease,AD)是一种多因素共同导致的神经退行性疾病,致病机理复杂,是一项亟需解决的世界卫生难题。目前治疗AD的上市药物数量稀少并且大多是单靶点药物,无法停止或反转疾病进程。多靶点AD药物理论上具有更强的调控效果与治疗潜力,可能成为人类最终战胜AD的重要策略。氧化应激在AD的复杂病理进程中发挥着重要作用,它可以与Aβ沉积、Tau蛋白过度磷酸化和线粒体功能障碍等
学位
阅读作为信息获取的主要渠道,其重要性毋庸置疑。在英语学习中,阅读能力直接或间接地决定了学生的其他三种听、说、写能力的发展。其次,高考英语科目中阅读在其总分中占比约为26.7%.对英语阅读进行研究是很有必要的。但高中生英语阅读中还存在一些问题,如阅读速度慢、效率低等,而语块具有整存整取性、可预制性等特征。因此将词块教学法运用到英语阅读教学中。在本研究中,语块教学法被定义为一种基于语块的二语习得教学方
学位
无轴承永磁同步电机(Bearingless Permanent Magnet Synchronous Motor,BPMSM)是一种能够同时实现旋转与悬浮功能的新型电机,具有损耗小、无需润滑、运行效率高等优点,在航空航天、生物医学、化学化工等领域应用前景广阔。在BPMSM的控制系统中,为了保证电机的平稳运行,通常需要机械传感器例如光电编码器、电涡流传感器获取转子的转速和径向位移信息,但是机械传感器
学位
核苷类似物在临床使用了近五十年,已成为病毒感染或癌症患者治疗的重要药物。大多核苷类似物为极性分子,有脂溶性差、毒性大、易耐药等问题。因此,研发一类高活性、低毒性、可口服并且生物利用度高的抗病毒核苷类药物依然是重中之重。核苷类似物可以以天然核苷的结构为基础,从糖环、碱基、糖苷键、磷酸基以及构型等方面进行结构修饰。早期研究发现,3’-氟取代嘌呤核苷类似物具有广谱的抗病毒活性,但嘧啶核苷类似物表现出较弱
学位
在英语学习中,尤其是在小学阶段的英语学习中,词汇学习是最基本的部分之一。学生的词汇量直接影响他们听、说、读、写的能力,进而影响他们英语学习的兴趣。大多数小学教师已经认识到词汇在英语教学中的重要作用,但在很大程度上,他们仍然采用传统教学方法——把生词写在黑板上,让学生跟读并记忆。事实证明,这种教学方法由于缺乏趣味性而收效甚微,而且更为重要的是,它降低了学生词汇学习乃至英语学习的兴趣。思维导图是表达发
学位
模拟电路是众多电子产品的重要组成部分,其工作状态对产品的整体性能具有巨大的影响。与数字电路不同,由于模拟元件存在容差,所以模拟电路的正常状态和早期故障状态之间的差异性较小。同时,与正常状态相比,模拟电路的早期故障数据相对较少。因此,早期故障诊断一直是模拟电路故障诊断领域中的难点。为了提高模拟电路早期故障诊断的精度,本文从以下几个方面进行了研究。(1)为了从有限的故障样本数据中提取尽可能多的有效特征
学位