基于DQN的机械臂控制策略的研究

来源 :北京交通大学 | 被引量 : 13次 | 上传用户:zhangshihua11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度强化学习迅速成为人工智能领域的重要前沿阵地,基于深度强化学习的算法已经在各个领域取得了突破性进展,尤其是在智能机器人控制领域,结合了卷积神经网络和传统强化学习中的Q学习算法的DQN(Deep Q Network)算法是深度强化领域的开创性工作,它解决了传统智能机器人行为决策时无法感知环境的问题。因此如何在真实环境下利用DQN及其改进算法使机器人直接根据高维感知输入学习到最优策略是论文的研究重点。论文的目标是通过训练得到一个策略网络使得机械臂通过感知到的高维度原始输入数据进行行为决策,实现从原始输入到输出的直接控制。论文主要研究内容及贡献如下:首先,论文研究并提出了一种基于引导式DQN机械臂控制策略算法。该算法的主要原理是采用了自助抽样的方式,利用多个分流网络来随机化值函数,临时扩展对状态空间的探索范围,实现深层探索。通过这种分布式的深度探索方法,充分保证了智能体对不同策略的探索,产生多样化的样本,使环境的动态信息更好地泛化到位置的状态空间中。其次,论文提出了一种基于递归式DQN机械臂控制策略算法。由于真实环境中的部分可观测性,机械臂所感知到的状态信息通常具有不完整性和明显的噪音,基于递归式的DQN算法将循环神经网络结构与深度Q网络结合,通过向原有DQN网络中添加新的功能模块LSTM(long short-terrm memory network),使得模型拥有时间轴上的记忆能力,能够更好地处理信息的丢失问题。论文利用DQN及其改进模型完成了真实环境中机械臂抓取物体的任务,实验过程中为保证训练过程的连贯性,同时避免机械臂与自身或外界物体发生碰撞引发的安全问题,本文提出了机械臂安全保障机制。实验结果证明了论文设计的两种DQN改进算法的有效性。
其他文献
专业建设是新建地方本科院校开启本科教育的基础性工程,也是学校应用型发展道路的起点。张家口学院作为典型的新建地方本科院校在这方面进行了艰苦而卓有成效的探索,顶层设计
目的:探讨p16INK4a、Ki67在慢性胃炎、胃上皮内瘤变、胃癌及癌旁非肿瘤性胃黏膜中的表达和临床意义。方法:采用免疫组织化学SP法检测23例慢性胃炎、16例胃低级别上皮内瘤变、
马克思主义自诞生之日起,就把人的问题的研究置于重要位置。人类历史,尤其是近一百多年的历史告诉我们,人的发展既是社会全面发展的前提,也是社会全面发展的最终目标。人的现代化
膝关节损伤作为一类骨科常见病涵盖了膝关节骨折、脱位及半月板和韧带损伤[1-2]。此类疾病的治疗多依靠手术方式,其住院时间普遍为4~5 d,时间较短,但真正实现受损关节功能恢
为了进一步加强与欧美模具企业的技术经济合作.中国模具工业协会曾组织模具企业的厂长、经理赴美国和欧洲考察。考察期间.大家感触很多.归纳起来主要有以下三点:
本文主要研究了大数据与教育扶贫的关联,在大数据背景下,使教育扶贫核心理念由教育起点公平转为教育过程公平,促进教育扶贫精准识别。教育扶贫项目精准化是优化教育扶贫的主
后装压缩式垃圾车压缩装置的结构设计和运动参数直接关系到整车的工作性能和效率.以L12型垃圾车压缩装置为研究对象,基于Siemens NX/Motion平台,对其进行运动仿真分析,分析了
五四时期西学东渐,随着科学的传入,作为现代新儒家第一代的核心人物,熊十力在儒学与科学的关系问题上提出了体用之辩的新见解,寻求内圣外王的现代化路径,建立了"新唯识论"哲
模块化、带磁性的工件夹紧模块正在改变着工厂要求生产或大或小的各种工件的加工途径。这种模块的最大优势在于它可以用于很多种机器的使用,它们的这种灵活性使得机器不需要再
电子工程智能化技术在电子工程领域获得广泛的应用,其不仅仅能够提升产品的质量以及工作效率,同时能够完成机械化的操作,并且能够在最大限度内减少人力资源成本,同时对建筑工