基于深度强化学习的机器人灵巧操作高效算法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:ppc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器人的灵巧操控是机器人领域和控制领域的前沿交叉研究方向,是使机器人具备通用性、走向人类生活的必备前提。然而,由于灵巧操控问题具有非结构性、高度复杂性等特点,传统的控制理论难以有效发挥作用。近年来,深度强化学习技术在各个领域不断取得新突破,在灵巧操控问题上也已经取得了一定的成功,但其学习速度、样本效率等方面仍旧水平低下。鉴于此,本文基于深度强化学习技术开展了机器人灵巧操控问题的研究,目的在于提高机器人灵巧操作的学习效率。本文的研究内容包括以下两个方面:首先,从数据增强方向展开研究。作为一种简单且有效的数据增强算法,不变性变换经验回放算法(ITER)通过万花筒式经验回放法(KER)和目标增强式经验回放法(GER)极大地提高了机器人的学习效率。本文深入分析了KER和GER的不足,并分别提出了高效对称经验回放法(KER-I、KER-II)和全面奖励经验回放法(GER-?),最后进一步形成了高效对称与全面奖励的数据增强算法(ITER-EC)。其次,从算法结构方向展开研究。基于模型的强化学习算法通常效率较高,但在稀疏奖励任务中难以有效学习,而无模型的强化学习算法可以在稀疏奖励任务中取得学习进展,但通常效率低下。结合两者的优点,本文提出了基于Q值的规划算法框架(Plan Q),并基于该框架设计了两种子算法Plan Q(PDDM)和Plan Q(DDPG)。实验表明,在数据增强方向,本文所提的ITER-EC算法与原算法ITER相比,在具有障碍物的复杂任务中,收敛速度提升了约4倍;在算法结构方向,所提子算法Plan Q(PDDM)相对于原算法PDDM,以及所提子算法Plan Q(DDPG)相对于原算法DDPG,在学习效率上均得到不同程度的提高,即成功率达到90%时的学习速度提高了2~4倍,而且获得了更高的任务成功率。整体上,本文在数据增强和算法结构两个方向上提出的算法,均能够有效地提高机器人的学习效率。ITER-EC算法尽管思想简单,但能够高效地增强样本数据,从而提升机器人灵巧操作的学习效率;而Plan Q算法框架则是将基于模型的算法和无模型的算法两者的优势巧妙地结合,使机器人能够在稀疏奖励的灵巧操作任务中快速收敛。
其他文献
在新能源大规模并网背景下,以风电为例,具有典型的功率不可预测、长距离输电等特点,再加上负载的非线性化增大等因素,其造成风电汇集区电压波动,为对其进行改善并提高风电场在故障条件下的高低电压穿越能力,风电场往往配备一定比例的无功补偿装置。另外,由于风电的特点,电网短路阻抗不可忽略,电网逐渐变弱,系统存在稳定性问题,大量含SVG的风电场与系统之间交互使系统稳定性问题更加突出,因此本文对风电并网系统中SV
学位
随着全球的能源结构的加速转型,风电作为一种可再生清洁能源,得到越来越广泛的应用。与此同时,雷电对风电机组运行的灾害性正备受关注。基于这一现状,本文旨在从计算分析和实验调查两个方面研究风力发电机组的雷电暂态过程,并分析影响风电机组暂态过程的各种因素。本文首先对风电机组中的各主要组成部分进行了暂态电路模型的建立,其中包括三叶片、机舱引流部位、塔筒-线缆以及接地装置等部分,并给出了各个部分模型电气参数的
学位
模块化机器人可以基于不同的应用场景灵活快速地构建出不同的运动学构型,具有传统机器人无可比拟的优势。在搭建完成机器人的物理模型之后,开发人员如何根据机器人的物理构型进行软件层面的建模是现在模块化机器人研究的方向之一。然而,模块化机器人系统的构型识别是一个耗费大量时间精力且准确率不高的任务。传统构型识别的方法有基于特定标志的检测方法或者基于内置红外模块的识别方法。由于实际应用场景的复杂性,这些方法存在
学位
零模约束优化问题在投资组合问题、机器学习、信号和图像处理、模式识别、回归分析等诸多领域有着广泛的应用.由于零模函数的组合性,零模约束优化问题一般是NP难问题,一般的连续优化方法不再适合用来处理该问题.为了克服零模函数组合性带来的困难,本文借助零模函数的变分刻画,将这类NP难问题转化为带有半互补约束集的约束优化问题,即MPCC问题.本文主要研究MPCC问题的稳定点理论.约束优化问题的可行集合的切锥和
学位
车辆互联环境下匀质车辆队列协同控制技术是一个新的热点技术领域,在发展智慧交通系统方面,它不但可以提升车辆安全性和道路效率,同时也可以降低碳排放量和节省行车时间.因此,对于在车辆互联条件下匀质车辆队列协同控制系统,有着重要的理论研究价值与实际意义,其中互联车辆的稳定性是诸多学者研究的重点之一.本文研究了对互联车辆系统在脉冲作用下的稳定性,将协同制动车辆系统问题表述为具有初始条件约束的一阶和二阶微分方
学位
刀具寿命是加工生产率的一个重要限制因素。特别在多品种小批量的生产环境中,数控机床的刀库容量有限,一次的换刀不能完成所有任务的加工。在加工过程中会有寿命用尽的刀具,或着任务所需刀型不在刀库里,需要进行换刀以满足任务的加工要求。然而频繁的换刀会增加停机次数、换刀数量和使用新刀具数量,从而降低生产效率,增加配置成本。为了解决以上问题,本文从以下几个方面展开研究:首先,对自动化加工中心生产运作过程进行详细
学位
随着电动汽车行业的快速发展,越来越多的电池从原本的应用场景中退役下来,退役电池的梯次利用技术已成为新能源领域的研究热点。而退役电池往往存在很多内部损伤,仅以容量和内阻等数据作为退役电池的筛选指标和健康特征不能反应电池的内部的老化,因此需要无损地获取更多反应电池内部健康状态的特征参数,作为退役电池筛选和评价的指标。本文通过搭建电池的电化学模型,使用模拟退火算法进行参数辨识,获取电池的电化学参数,依据
学位
陶瓷球轴承具有密度低、硬度高、弹性模量大以及热膨胀系数小等众多良好的机械性能,使其能够在恶劣的环境下稳定运行,并被广泛应用于高速主轴、高端机床、高速列车、发电机组等装备中。陶瓷球作为陶瓷球轴承中的关键部件,其加工质量直接决定着整个陶瓷球轴承的性能。由于氧化锆陶瓷球的硬度高、球体抛光加工困难,本文结合传统的V型槽抛光加工球体的特点以及磁流变抛光加工的特点,设计了氧化锆陶瓷球磁流变抛光加工装置,对氧化
学位
电池系统健康状态的准确评估是电动汽车运行维护的重要依据,能够保障电动汽车安全可靠运行,提高续驶里程,延长使用寿命。针对当前锂离子电池评估需求大、评估时间长的现状,设计一种基于线下检测的车载锂离子电池健康状态快速评估方法,电动汽车的充电数据与电池健康状态评估方法相结合,通过对电池健康状态评估,拟解决新能源汽车行业风险防控、维保痛点。本文通过对磷酸铁锂电池全生命周期电池循环数据分析,结合电池老化机理提
学位
随着社会的发展,人口膨胀与能源短缺给人类可持续发展带来严重困扰,为此人们纷纷将目光投入海洋。对海底沉积物进行取样分析是进行海洋地质调查的重要环节,相比于从海面直接钻探的大型钻探船,海底钻探采样机器人因其作业的灵活性和作业成本的低廉性,在海底岩土勘探中起着重要作用,是世界各海洋强国争相研制的重要技术装备。而钻探取芯机构系统是钻探机器人的核心骨架,是岩土取芯任务功能的核心执行单元。针对海底沉积物采样探
学位