基于深度强化学习的机械臂抓取策略研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:safemon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,智能控制算法已经成为机器人控制领域的热点研究问题,而其中深度强化学习作为人工智能领域的一个分支,已经成功应用于机器人控制中的很多方面,使机器人可以具有传统控制方法所不能给予的环境交互和自主学习能力。其中机械臂作为机器人的重要执行机构,针对机械臂的智能控制算法研究也逐渐得到了广泛关注,但是由于机械臂操作模型较为复杂,环境动态多变,智能控制算法在机械臂控制中应用还存在很多问题。因此,本文基于深度强化学习的方法,实现机械臂由视觉感知到行为决策的完整控制过程,针对控制算法提出改进措施提高智能控制算法在机械臂控制领域中的学习性能。本文首先基于深度强化学习算法中的DDPG算法,根据机械臂的实际操作环境,针对DDPG算法采样效率低、奖励稀疏的问题,提出了改进DDPG(MDDPG)算法,提出了目标自适应改进措施和奖励重塑方案,在仿真环境下分别对MDDPG算法和DDPG算法进行训练,仿真结果显示,改进后的MDDPG算法可以提高大约2倍的学习速度。其次,考虑机械臂的实际应用条件,将计算机视觉方法引入控制策略,应用分层慢特性分析(SFA)法提取图像中的关键信息;针对实际机械臂操作环境中奖励稀疏的问题,提出了基于内在激励的强化学习算法(IMAC),通过对状态的预测得到内在激励奖励,并与外在奖励相结合,减少了奖励稀疏情况造成的影响,共同优化控制策略;在仿真环境下对SFA-IMAC算法进行训练,验证其在抓取成功率上有了显著提高;然后针对将虚拟环境下的控制策略迁移到真实环境中所遇到的问题,提出了基于动态模型的自适应控制策略,通过引入动力学参数并将其随机化处理,提高了控制策略对动态环境的适应能力,更有利于控制算法在实际环境中的应用。最后,综合所有算法,在一个6自由度机械臂实验平台上对算法进行验证和评估。通过在虚拟环境下对控制算法进行预训练,然后再迁移到真实手臂中,实验结果表明,真实条件下的机械臂抓取成功率可达到89%,验证了以上算法的有效性,提升了算法在机械臂控制中的性能,为今后的研究者们提供了一个智能控制的基本框架,对深度强化学习在控制领域中的应用做出一定贡献。
其他文献
自2004年下半年以来,我国商业银行经营面临越来越严重的流动性过剩问题。我国商业银行的流动性过剩是由体制变迁、监管力度加大、进出口贸易不均衡等方面的原因所引起的。要解
实证研究表明,目前我国规范的农民专业合作经济组织数量极少,农户对加入合作经济组织的态度并不明朗。这一现实与政府的大力扶持以及学界的积极呼吁形成了鲜明对比。理论和现实
针对干线公路交通量大,车载超重,易发生车辙、推移、拥包等病害的实际情况,采用GTM试验法配置沥青混凝土预防并在干线公路上进行应用。
文章就农业信息服务现状,提出了开展农业信息服务的对策与途径。
财务会计目标是期望会计达到的目的或境界.必须在认识财务会计的客观职能和会计信息使用者的主观要求基础上,辨识财务会计目标.财务会计目标的实现范围取决于财务会计的客观
文章依据山西发展现状,阐明科学技术要为促进国企改革做贡献。
文章通过对晋中地区民营科技企业发展现状的分析,提出了存在问题及其发展对策.
文章阐述了数字图书馆的概念及特点,分析了数字图书馆建设的现状,论述了数字图书馆建设的对策。
为明确中药与甲氧苄啶复方在动物体内抗感染作用的机制,本试验研究了其对小鼠血液学和免疫学指标的影响。将受试药物按1、5、10 g/kg体重连续腹腔注射15 d,通过Coulter-JT血
现代服务业已经成为世界经济发展的重点领域。进入21世纪后,国际服务业向我国转移的步伐加快,我们应当抓住这历史的机遇,发展我国服务业,促进我国国民经济健康、稳定发展。