基于深度强化学习的机械臂技能操作方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:WIN_Hardy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能、计算机技术等新一代信息处理技术的快速发展,机械臂领域的研究及应用也向智能化方向逐渐迈进。在智能制造领域,期望机械臂具备更高水平的学习能力,从而掌握诸如抓取、装配、搬运等技能操作。此外,当面对复杂装配环境或者新任务时,需要针对机械臂训练出适应任务要求的策略模型。本文以工业装配场景中的抓取技能和轴槽装配技能为机械臂学习目标,采用深度强化学习理论与技术训练任务模型。通过对抓取技能中样本利用率及装配技能中奖励稀疏问题进行分析和改善,使得机械臂能够通过学习不断优化决策,从而掌握任务要求的技能。针对杂乱环境下单机械臂抓取目标物块的技能学习,本文提出一种带有策略引导机制的深度Q网络算法(PG DQN),从而建立从视觉输入到动作输出的策略模型。由于机械臂技能操作的动作空间连续且高维,如果传统深度Q网络算法(DQN)直接应用于机械臂,则会引起样本利用率低、探索空间复杂等问题,从而导致训练模型难以收敛。针对上述问题,本文首先采用点云技术以及全卷积神经网络,将任务建模为像素级预测问题。其次采用策略引导机制,将机械臂任务目标引入到强化学习模型中,通过在训练初期将原本利用价值较低的负样本经过引导,使其向正样本趋近,从而提高了样本利用率。为验证所设计的算法,在Coppelia Sim仿真平台建立单机械臂抓取系统和测试场景。仿真实验表明在单机械臂抓取目标物块任务中,基于PG DQN算法的抓取成功率约75%。相比基于传统DQN算法的机械臂抓取技能操作,所设计的PG DQN算法能够显著提升抓取效果。针对轴槽装配技能学习,本文建立双机械臂协同装配系统。相比单机械臂,传统双机械臂控制系统不仅存在复杂的运动耦合问题,而且计算量庞大,因此难以满足智能化装配需求。针对上述问题,本文基于多智能体强化学习理论,将多智能体深度确定性策略梯度(MADDPG)算法应用于双机械臂协同轴槽装配系统。在双机械臂协同轴槽装配中,因为存在长序列决策问题,通常导致稀疏奖励情况更加明显。本文在设计整体奖励时考虑了单个机械臂的自身决策对于整体任务奖励影响。通过计算每个机械臂状态前后变化差值,并将该差值作为内在状态激励而施加到整体任务奖励中,从而对传统奖励函数进行了改进。为验证所设计的算法,在Coppelia Sim仿真平台建立双机械臂轴槽装配系统和测试场景。仿真实验证明在双机械臂轴槽装配任务中,基于MADDPG算法成功率约83%。
其他文献
“双碳”目标、乡村电气化、新型电力系统建设背景下,清洁能源的开发利用是国家关注的重点。我国乡村地区地域广袤,清洁能源储备充足,提升清洁能源就地消纳水平和利用效率成为亟待解决的问题。伴随着清洁能源并网数量不断增多、能源属性逐渐市场化,传统综合能源系统已难以满足现阶段人们对于综合能源系统的发展要求。信息通信技术的发展和应用促进综合能源系统(Integrated energy system,IES)能源
学位
报纸
玉米作为重要粮食作物之一,经济价值较高。不论是在玉米作物的生产种植还是新品种培育上,植株表型是关键信息,表型性状的精准获取具有重要意义。传统表型研究方法主要依靠人工测定,存在工作量大、效率低下、容易损伤作物等问题。此外,人工收集作物表型信息难以做到全面、精准,已成为数字农业和育种研究中的技术瓶颈。三维重建技术作为作物形态学研究的有效工具,可实现作物表型量化及精准获取。因此,本文利用自主研发的三维成
学位
随着现代化养殖业的迅猛发展,奶牛场养殖模式呈现数字化、规模化、精确化的发展趋势。我国是农业大国,奶业的发展是我国农业发展的关键因素之一,在奶牛养殖业中还存在很大一部分中小型农户散养模式的奶牛场,这些奶牛场管理粗放、智能化低、人工作业强度大。针对以上问题,本文使用机器视觉技术对泌乳期奶牛进行无接触的个体及行为识别,基于此利用Django框架设计和开发一种中小规模养殖场泌乳期奶牛管理平台,实现对奶牛的
学位
当前制造业正在经历深刻的调整和变革,如何积极有效利用现代信息技术,精准控制工业产品的成本和质量,成为制造业数字化、智能化转型发展的关键。传统制造业供应链管理系统往往围绕某一中心企业的管理平台展开,中心化依赖程度极高,链上信息不透明、不对称、不可靠,难以实现全链可信数据采集和多方互信,致使工业品全过程数据追溯困难,难以提升产品质量和企业内部管理效率。而区块链凭借其分布式、公开、透明和不可篡改的特性,
学位
随着我国禽类养殖业的迅猛发展,越来越多的养殖场实行了标准化、集约化饲养与管理,多数禽舍采用密集的立体化笼养方式,养殖密度大。畜禽舍在秋冬季节通常较为干燥,在喂料和鸡群日常活动过程中会产生扬尘,部分粉尘颗粒会沉积在舍内的鸡笼笼网表面,同时由于鸡群的活动和代谢产生的粪污和羽毛等会附着在笼网表面,如果不能及时清理,会加剧细菌、病毒等病原体的滋生,影响鸡群和饲养人员的健康。当前我国对于鸡笼的清洁大多依靠人
学位
复杂背景中的文本信息提取算法已成为计算机视觉领域重要的研究课题之一,相关技术在工业生产、自动驾驶、信息检索等多个领域有着广泛的应用,其显著降低了工业生产成本,有效推动了工业生产模式朝着智能化和高效率的方向持续发展。为提高文本提取技术在复杂背景下的精度和效率,本文对文本检测与分割算法进行了深入研究,研究成果对于多变背景下复杂形态文本的提取任务具有重要的工程意义与实用价值。本文的主要工作和贡献如下:(
学位
多智能体系统的一致性问题是分布式协同控制的基本问题,其通常假设智能体都是“合作”关系。近十年,合作-竞争多智能体系统的二分一致性作为一类特殊的一致性问题也开始得到了广泛关注。然而随着网络技术的快速发展,多智能体网络越来越复杂,智能体的自治性、异构性和开放性等特性虽在解决大规模、复杂任务上有着优良性能,但同时也带来了安全隐患,因此多智能体系统的安全控制非常重要。目前针对恶意攻击下的多智能体系统,大多
学位
频率选择表面(Frequency Selective Surface,FSS)是一种周期阵列的空间电磁波滤波器,可选择性反射或透射特定波段的电磁波,在飞行器隐身领域应用广泛。飞行器在以高超声速飞行时,机身在空气粘性阻滞作用下温度会升至数百甚至上千摄氏度,而传统FSS只有隐身性能而不具备耐高温能力,在高温下会失效并导致内部电子设备烧毁。液态金属因具有高导热率、高沸点以及良好导电性和流动性可将其作为F
学位
近年来,伴随着空间科学技术的飞速发展,为获取更高质量的电磁波信号,就迫切需要星载天线朝着大口径、轻质量和高精度的方向发展。在如此背景下,可展开星载天线应运而生,根据可展开天线的结构形式不同,又可分为固面式、充气式、环形桁架式、径向肋式、构架式等众多类型,其中,径向肋式索网天线因为结构形式简单、展开稳定性较高等优点得到广泛关注。目前,美俄等西方国家已经研制了多种径向肋式索网天线并投入使用,而我国起步
学位