基于多任务强化学习的机械臂控制策略研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:lideqiang163com
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机械臂的控制方法一直是热点研究问题,传统的控制方法能够使机械臂完成大多数任务,但是当环境或任务发生改变时,传统的机械臂控制方法缺乏适应性,而人工智能技术的发展对提高机械臂控制方法的适应性带来了新的解决思路。强化学习是实现通用人工智能的重要技术之一,通过与环境交互进行学习,以最大化累计奖励为目标来找到完成任务的最优策略。近年来深度神经网络和强化学习相结合提出了深度强化学习方法,这类方法具有较好的信息特征提取和表示能力。基于深度强化学习的机械臂控制方法,能够解决具有高维状态空间和连续动作空间的任务,但是较多研究人员只关注在单个任务中的深度强化学习方法,这样的方法学习效率低并且不能完成多个任务,面对不同任务时需要重新训练算法。为此,本文基于深度强化学习算法在机械臂多个典型任务中进行控制策略研究。本文主要完成了以下工作:(1)提出了一种双重Q网络学习的迁移深度确定性策略梯度算法,解决了深度强化学习算法在单个机械臂控制任务中学习效率低的问题。由于深度确定性策略梯度算法存在过高估计Q值的问题,所以首先将两个机械臂控制任务分为源任务和目标任务,然后将深度确定性策略梯度算法在源任务中学习获得的最优值函数网络迁移至目标任务,使算法在目标任务中训练时具有两个学习Q值的值函数网络,然后取最小Q值引导策略网络更新,来改善过高估计Q值带来的问题,最后在机械臂目标点到达的仿真实验中验证了所提算法具有更高的学习效率。(2)提出了平行重组网络模型,将平行重组网络模型应用于Soft Actor-Critic算法,解决了依靠单一策略网络的深度强化学习算法控制机械臂完成多个任务的问题。深度强化学习算法的网络模型一般是平行顺序结构,从上一网络层将信息传输到下一网络层,而平行重组网络模型假设信息传输会发生在不同网络层之间,从而在不同任务中灵活共享网络参数,基于平行重组网络模型的Soft Actor-Critic算法能够同时在多个任务中训练,并学习到多个任务的知识,然后在多个机械臂仿真任务中验证了所提算法能够依靠单一策略网络完成多个任务。最后将仿真环境训练好的算法迁移至真实实验环境验证了该算法的有效性。
其他文献
目前,软体机器人已成为机械领域内研究的热点,然而,软体机器人的结构、驱动及控制方面仍存在许多值得深入研究的课题。弹性杆的稳定性模型在生命科学和诸多工程领域中得到了广泛应用,但将其运用于软体机器人的研究鲜有报道。本研究基于环形弹性杆在扭转作用下的循环失稳特性,提出了一种单自由度控制、功能-结构一体化的柔性传动机构,并将其作为波动式驱动装置应用于仿生机器鱼。首先,建立了环形弹性杆的力学模型,并依此对环
学位
微注塑成型技术因具有工艺简单、成型周期短等优点成为微纳制造的热点,高效化、低成本的生产原则使得发展一模多腔微注塑成型技术成为必然趋势。由于高剪切速率和尺度效应使其与传统注塑充填流动不同,必将引发新的充填不平衡问题和现象。本文基于此,采用数值模拟方法,以高密度聚乙烯(HDPE)及聚甲醛(POM)材料,研究微尺度下的关键影响因素包括壁面滑移、微尺度效应、对流换热以及工艺参数等对微尺度充填不平衡影响规律
学位
跳跃机器人在复杂环境中的更强越障、更快躲避危险等优点吸引了许多研究者,对跳跃机器人的结构、驱动、控制进行研究已是热点课题。对如水面、废墟等特殊环境,传统跳跃机器人只通过优化结构等方式,已无法适用,因此,研究一种新型驱动下的小型跳跃机器人并实现其可控,对拓宽机器人作业领域具有重要作用。本文为了设计一种在具备跳跃、负重、可转向等多运动能力的基础上可控的小型跳跃机器人,研究对比了多种驱动方案,选择了可控
学位
再生混凝土技术的运用和发展,能够有效减少我国对建筑材料的浪费,提高对废弃混凝土的循环利用率,减少建筑垃圾,从而美化人们的生态坏境,提高生活质量。再生混凝土和外包钢管的组合,克服了再生混凝土与普通混凝土相比存在一定程度劣化的缺陷,但目前对钢管再生混凝土柱的研究大多集中于圆形、方形等截面,对T形截面的钢管再生混凝土柱研究则较少。因此,开展此类构件轴压性能的研究,对促进工程实践应用具有重要的意义。本文采
学位
金属玻璃因为大的弹性极限、高的强度、优越的耐磨性、良好的软磁特性、优异的生物相容性等性能被广泛应用于工业、交通、航天、军事和医学领域,这些性能都与其独特的非晶结构有关。然而无序的非晶结构使得金属玻璃的纳米摩擦学性能与其结构的关系难以建立,阻碍了具有优异性能的金属玻璃的设计和制备。为此,本文制备了假想温度为:320℃、370℃、410℃的块体Zr基金属玻璃,建立了假想温度与金属玻璃自由体积的关系,然
学位
在机加车间中,因工作人员疏忽或未能及时发现并处理的安全隐患导致安全事故频繁发生,给企业造成了巨大的损失。虽然通过安全培训能提高工作人员的安全意识,进而降低安全事故的发生率,但由于个人素质、行为习惯等差异,安全事故很难杜绝,同时也难以实现人力监管。基于深度学习的计算机视觉技术,因其检测精度高,被应用于自动驾驶、人机交互等行业中。本文利用深度学习技术,对机加车间内物体的摆放状态、工作人员的动作以及行为
学位
随着我国核电产业的高速发展,核电厂在运行过程中面临的各种安全问题也越来越受到重视。在核电厂运维过程中,部分工作仍需要人工进行现场操作,其高辐照环境可能会对操作人员造成不可逆身体损伤。通过外部控制机器人代替人工完成相应的工作,成为了目前主流的方法。本文研究课题来自国家科技重大专项“CAP1400核电厂智能运维关键技术研究项目”:针对机器人代替人工进行堆外核测探测器安装的需求,设计了一款能够在狭窄堆腔
学位
空间姿态的精确测量及调整在装备的装配对接、质量检测等工艺过程中具有关键支撑作用,然而,在大尺度测量环境中设备跨度大,现场环境复杂,常因物体结构、工件遮挡以及凹陷等因素导致物体固有特征点间形成阻隔,从而难以实现物体姿态的实时测量及调整。目前,基于激光跟踪仪、摄影及室内定位等的多站测量技术结合三坐标定位器是解决阻隔空间姿态测量及调整问题的主要方式,但是其成本较高、空间基准统一复杂,并且受时间同步误差及
学位
在航空发动机状态监测领域,尾喷流中的异常颗粒物作为发动机气路早期故障的直接产物,实现其参数测量对于评估发动机气路损伤程度、建立性能退化预测机制等方面具有重要意义。尽管目前已有多种先进的测量手段,如激光多普勒、粒子图像测速以及数字全息技术等,但受测量精度、测试效率、环境要求等因素限制而无法直接应用于工业现场。为此,本文利用高速摄像技术开展航空发动机尾喷流中颗粒物的运动参数测量研究。分析了航空发动机尾
学位
金属玻璃的塑性变形行为一直是非晶领域的研究热点,目前针对该问题学者们已经从宏观到微纳观尺度关注了其摩擦学响应,在为数不多的金属玻璃相关AFM纳米划痕研究中,无论是通过溅射获得的金属玻璃薄膜,还是通过抛光获得的块体金属玻璃,虽然样品表面粗糙度仅1~2 nm,但对于AFM纳米划痕实验却是远远不够的。为了深化对金属玻璃在微观尺度下塑性变形机理的理解和认识,有必要开展原子级平整的金属玻璃在纳米尺度下的AF
学位