基于深度强化学习的机械臂快速训练方法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:wangshilei19850715
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,机器人越来越广泛地应用于各行各业,机械臂作为机器人的一个主要分支也越来越多地出现在科研、医疗、工业等场景中,承担重要的角色。其中,抓取功能作为机械臂的主要应用需求,逐渐成为机械臂控制的研究热点。面对日益复杂的任务,传统的控制方法已难以满足机械臂的应用需求。深度强化学习(Deep Reinforcement Learning,DRL)算法以强化学习理论为基础,结合了深度学习理论,是目前机器学习的重要研究领域之一。DRL旨在建立一个通用模型,模型通过与环境的交互,实现自主学习和自主决策,能够有效解决机械臂的智能控制问题,因此近些年科研人员逐渐将DRL与机械臂结合,开展相关领域的研究与应用。但由于真实机械臂工作在三维现实环境中,现有的DRL算法如果在三维空间训练机械臂,会面临状态空间和动作解空间过于庞大,导致训练周期过长、计算机资源消耗过大、训练成本过高等问题,不利于DRL理论在现实中的落地应用和推广。因此,本文通过对四个不同型号的机械臂进行结构和运动方式的分析,以及使用DRL算法做机械臂训练的分析,在机械臂的训练方案和学习算法两个方面进行深入研究。提出了一种面向解空间的机械臂深度强化学习降维训练方法,对深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)进行了改进,提出延迟更新策略深度确定性策略梯度算法(Delay Update Policy Deep Deterministic Policy Gradient,DUP-DDPG)。该算法进一步提升了机械臂的训练效率,同时验证了所提降维训练方法对机械臂避障的有效性,具体工作概括如下:(1)面向解空间的机械臂深度强化学习降维训练方法的研究。通过对抓取任务分解,将机械臂横向舵机与纵向舵机的训练解耦,按舵机两种不同的旋转方式将抓取任务分为确定抓取方向和末端执行器沿抓取方向目标靠近两个步骤,通过抓取的方向确定一个抓取纵面,然后训练控制该纵面的关节使其抓取目标物体。为验证降维训练方法的有效性,搭建了二维仿真环境,使用三种强化学习算法对四款降维后的机械臂分析验证,对比不同算法的网络收敛效果。同时在Coppelia Sim仿真环境中搭建仿真模型并且建立与算法的通信,对四款机械臂在三维仿真环境中使用三种强化学习算法训练,并和降维后的机械臂的收敛效果对比分析,通过降维的方式极大地压缩了解空间,在保证动作执行精度的情况下,简化了训练过程。进一步尝试将训练的目标点从二维平面压缩为一条直线,并对比分析了和二维平面中训练时的差别。(2)DDPG算法的研究与改进。针对DDPG对Q值的高估问题进行改进,提出了DUP-DDPG算法,算法中对同批次样本进行二次价值估计以延迟更新策略网络,缓解了Q值的高估,针对经验池数据庞大,为了学习更多有价值的经验,在算法中添加了优先经验回放(Prioritized Experience Replay,PER)算法,有效提升了算法的训练效率。训练结束后将算法迁移到了实物机械臂上,在实物实验验证与分析中使用“Hi Arm”机械臂抓取四种不同大小的和形状的目标物体,对比原始算法和改进后的算法的收敛程度和对机械臂抓取精度的影响。实验结果表明了所提方法具备训练复杂度低、速度快、精度高和成本低的特点,抓取成功率可以达到98%。同时针对处理的问题,分析了DDPG算法中状态向量,奖励函数和学习率的设置,讨论了不同噪声对动作探索的影响,而且分析了目标点不同大小不同区域对训练过程的影响。(3)机械臂避障的降维训练方法研究。分析了提出的降维方法对机械臂避障的影响,根据障碍物的三维形状、位置和大小等因素将三维环境下的障碍物映射到二维训练环境的抓取纵面。使用DDPG算法训练经过降维处理的机械臂和障碍物,然后将训练完成输出的角度输入三维仿真环境中,分析了二维环境下添加障碍物前后的算法收敛性,并且使用真实机械臂在有障碍物的情况下抓取目标物体。
其他文献
<正>《语文课程标准》指出:要重视培养学生广泛的阅读兴趣,扩大阅读面,增加阅读量,提倡多读书,读好书,读整本的书。整本书阅读一般包括整本书导读课、推进课、分享课三种课型,而导读课是整本书阅读的起始课程。导读课是否成功,决定着学生是否喜欢这本书,在整本书阅读中起着至关重要的作用。那么,整本书导读课成功的标准是什么?笔者以《宝葫芦的秘密》导读为例,从以下三方面来谈:导读前奏曲——趣字当先整本书导读课最
期刊
当前机器人技术面临的较大限制之一是难以适应不断变化的任务,当机器人面对新环境或者学习新任务时,会不可避免地遗忘旧环境或旧任务的经验。为了总结机器人持续学习的研究和发展现状,首先介绍了持续学习的框架和评价基准,然后阐述了持续学习在机器人任务中的必要性和面临的挑战,并对持续学习的发展现状进行了回顾,最后展望了机器人持续学习的发展前景,提出了一些有价值的研究问题。
自从国家实行了双减政策后,对初中物理实验教学质量要求更高,需要教师加强学生动手操作能力和学习能力培养。但是在具体开展教学中,受到多重因素影响,导致初中物理实验教学存在部分问题,需要教师根据双减政策要求制定解决对策,力求学生在参与学习中能够全面提升各方面能力。本文主要对基于"双减"政策初中物理实验教学现状及对策进行浅析。
<正>《义务教育语文课程标准(2022年版)》(简称“2022年版语文课标”)有什么特点,我们该如何用它来指导具体的语文教学?《义务教育课程标准(2022年版)课例式解读初中语文》这本书便应此需而来。这本书提醒我们,2022年版语文课标有两个方面的变化值得特别关注与研究。1.语文核心素养“可以说,经过近20年的探索,核心素养培育已经成为全球教育变革的潮流,它不但推动了我国学生发展核心素养的研究,
期刊
<正>国网四川电力资阳市雁江供电分公司聚焦“用上电、用好电、好交费、易沟通”四方面,以“三个责任”为抓手,为客户打造便捷高效的用电报装、安全可靠的电力供应、方便优质的交费服务、准确及时的信息交互服务,全方位提升客户服务获得感。2021年以来,国网四川省电力公司资阳市雁江供电分公司(以下简称“雁江供电公司”)以社会责任视角透视解剖、诊断和改善服务瓶颈,在供电服务工作中创新应用社会责任工具箱,形成了与
期刊
创意戏剧和绘本阅读融合的基础是戏剧活动中有着多重意义的建构,创意戏剧活动可以扩展绘本的叙事空间。二者融合的策略是以绘本阅读经验为基础,在阅读中注重绘本的叙事节奏、体会图画书叙事的魅力、扩展学生的阅读视野,同时让学生从戏剧游戏与即兴扮演的技巧中初步体验绘本与戏剧融合的魅力,通过初级创意戏剧课程实践为他们奠定未来课堂的基础。
为解抗滑桩-预应力锚索框架组合结构在地震作用下的受力机制,基于四川省东北部某滑坡治理工程,采用MIDAS/GTS有限元程序建立抗滑桩-预应力锚索框架数值模型,采用位移时程曲线法对加固边坡进行稳定安全系数计算,而后输入不同峰值地震加速度(PGA)的Wolong地震波,分析了加固边坡的加速度响应、桩锚结构内力变化以及荷载分担规律。研究结果表明,加固边坡的稳定安全系数满足规范要求,在地震作用下其上部可能
<正>中国台湾从20世纪80年代开始戏剧课程实验,到现在已经进入比较成熟的阶段。那么台湾的戏剧课程在课堂上是如何呈现的?台湾高雄市教育局艺术与人文领域辅导员吴青烨(叶子),应邀来到了觅渡教育集团,和孩子们一起共同上演了一出《巫婆来了》。巫婆来了师:很高兴这节课叶子老师来给大家上课。师:(拿出鼓)这是什么?
期刊
<正>大部分神话传说都或多或少地包含着历史的真实。神话发生和发展于“人类智慧的早期儿童状态之中”,“作为思维发展的证据,作为很久以前的信仰与习惯的记录”,“也像人类思想的一切其他表现一样是以经验作基础的”,不同程度地“保留了历史真实性的内核”,是构成“各民族历史的素材”。然而,通过神话传说保存下来的信息,毕竟不能与有史以来的文字记载材料画等号。因此,我们必须既看到神话传说的历史研究价值,又不能拿一
期刊
供电公司开展网格化管理,力争做到服务零距离,管好一张网,服务广大民众,以网格化方式管理作业人员。构建供电服务管理体系,加强故障抢修,采用网格化抢修模式,提高供电服务能力,充分运用网格化模式指导基层人员,发挥出客户经理及网格化模式的有效性。本文针对供电公司客户经理"网格化"供电服务管理体系构建做出具体分析。