基于强化学习和元学习的机械臂抓取方法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zhgrmlshr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机械臂在工业和服务领域有着广泛的应用,抓取是机械臂的重要技能,也是机器人学习领域的研究热点。基于深度强化学习的抓取方法能够通过自主学习完成端到端抓取,但此类方法存在学习效率低的问题。针对深度强化学习在机械臂抓取中存在的问题,本文提出了一种基于强化学习与元学习的机械臂抓取方法,从增加正向奖励、学习归纳偏置、降低任务复杂度三个方面提高学习效率。本文主要研究内容如下:(1)利用深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)和稀疏奖励函数训练机械臂学习接近、抓握、放置三个抓取操作中的基本技能以及二维平面抓取技能,并引入后视经验回放算法(Hindsight experience replay,HER)增大轨迹数据中正向奖励的密度,解决稀疏奖励带来的学习效率低及不可学习的问题,显著提升了策略收敛速度和性能。(2)针对新的接近技能需要重新学习而导致学习效率低的问题,利用元Q学习方法(Meta Q-learning,MQL)从相关的接近任务中学习出有效的归纳偏置,并将习得的归纳偏置应用于新接近技能的学习中,使得达到同样的收敛性能所需样本量仅为之前的23%,消融实验表明获取轨迹上下文变量是学习归纳偏置的关键。(3)通过将抓取任务分解为接近、抓握、放置三个子任务,降低任务复杂度,然后对高层策略和低层策略进行分层、独立学习,在抓取子任务的低层策略已习得的基础上,利用异步优势Actor-Critic算法(Asynchronous Advantage Actor-Critic,A3C)学习高层策略用于编排子任务执行顺序。实验表明通过分层训练策略,解决了端到端训练所存在的不可学习的问题,且抓取策略的成功率优于二维平面抓取策略。
其他文献
经济调度作为智能电网系统的运行和控制中的关键问题,在能量管理中显得尤为重要,合理有效的完成调度任务对提高电网经济效益有着极大的影响。分布式经济调度是一种新型发电调度策略,能较为灵活、高效的调节发电状态,提升能源利用效率。此外,收敛速率作为评价系统性能的重要指标,直接影响着系统运行质量。常规的收敛时间有渐近时间收敛,有限时间收敛,以及固定时间收敛。渐近时间策略的收敛时间为无穷大,有限时间策略的收敛时
学位
近年来,无人机凭借其灵活性高、实时性强、监测范围大的优势,被广泛应用于农林植保、电力巡检、交通巡查等行业。随着其应用场景的不断扩展,行业前景也越发广阔。城市安防也是无人机应用落地的重要领域之一,无论是春运、晚会等大型活动安保,还是管控防疫等日常巡查,无人机均能大大缓解治安管控压力。然而,现阶段无人机在行业应用中只起到视频采集的作用,对于图像内容的判断还需要依靠大量人力和时间。随着人工智能的飞速发展
学位
issue追踪系统作为Github的重要组成部分,越来越多的用户和开发者使用它提交问题报告。这些问题报告可以是项目中存在的缺陷,也可以是期待的新功能等,简称为issue。通过提交issue,一方面可以让开发团队更好地了解用户的需求,另一方面也能促进软件项目的迭代和完善。然而在一个项目中通常有数百个issue,开发人员逐条审阅和处理需要消耗大量的时间和精力。Github提供了标签机制来为加快issu
学位
情感分析是自然语言和图像视频处理领域研究的热点问题之一,近年来,随着人工智能的发展和大数据时代的到来,博客、微博、论坛等社交媒体,电商平台以及各种新闻网站已经成为人们日常表达情感与获取信息的重要平台,从而也产生了海量的带有个人情感倾向的文本、图片和视频等数据。针对这些数据的研究对提升平台的服务质量、帮助商家更好地进行产品宣传与销售、进行舆情监控以及个性化推荐等具有积极作用。研究者们最早主要关注于对
学位
量子行走是经典随机行走在量子世界的对应。量子行走与经典随机行走相比具有二次加速特性,基于量子行走的算法效率更高。量子纠缠是量子行走除了二次加速特性之外的另一个重要特征,有两个纠缠粒子的量子行走算法可以区分所有的非同构图,而没有纠缠的量子行走算法只能区分其中的一部分。量子行走中纠缠度量和扩散的研究已引起人们的广泛关注。本论文围绕量子行走中纠缠态的制备和度量展开研究,主要做了以下工作:(1)实现了非均
学位
非正交多址(Non-Orthogonal Multiple Access,NOMA)技术的核心思想是在同一个资源块同时为多个用户提供服务。但是由于NOMA接收端串行干扰消除(Successive Interference Canaeller,SIC)解码的特殊性,将用户全部通过NOMA服务会使得接收端的复杂度很高同时解码错误大大增加。因此,有必要将用户分簇/配对,分簇/配对后的用户通过NOMA服务
学位
随着CT影像技术在现代医学诊断和治疗过程中的应用越来越广泛,CT检查中潜在的辐射风险也引起了人们的广泛关注,过量的辐射容易诱发白血病以及癌症等疾病,因此,降低CT扫描过程中的辐射剂量刻不容缓。使用间隔一定角度扫描的稀疏采样方法可以获得辐射剂量低的稀疏角度CT图像,但是获得的稀疏角度CT图像中存在伪影,降低了图像的质量,影响医生的诊断。本文以去除稀疏角度CT图像中的伪影和增强CT图像细节为目标,构建
学位
随着服务机器人在家庭环境中的广泛使用,如何让机器人有效地学习复杂操作技能是机器人操作技能学习领域的研究重点。本文基于行为树和强化学习针对家庭环境中的开门放置药瓶复杂操作技能,从模仿学习和强化学习两种角度开展研究。论文主要研究内容如下:(1)结合软硬件建立了服务机械臂操作实验系统和技能学习框架。操作实验系统通过ROS将系统软硬件进行连接,完成了Kinecct V2相机与Kinova Jaco2机械臂
学位
大数据时代,随着计算机技术和人工智能技术的快速发展,在世界范围内有越来越多的数据被记录、存储和使用。大量数据伴随着互联网的广泛应用,促进了科技的进步,给人们生活带来了便利。随着数据分析技术的发展和各式各样数据挖掘算法的提出,数据的传播和共享越来越频繁。文本、语音以及图像等多样化数据更为广泛的传播,使得人们隐私受到严重威胁,数据隐私保护成为越来越严峻的问题。如何在保护数据隐私的同时还要保留数据一定程
学位
中共中央、国务院于2020年10月印发的《深化新时代教育评价改革总体方案》中提到“坚持科学有效,改进结果评价,强化过程评价,探索增值评价,健全综合评价,充分利用信息技术,提高教育评价的科学性、专业性、客观性。”,充分说明改革教学评价体系是建设新时代高等院校高质量教学发展的关键。提高教学评价体系的科学性、准确性是目前亟需解决的重要课题。本文的研究旨在利用高校学生评教数据和数据挖掘中的相关算法实现评教
学位