基于改进竞争网络的机器人避障方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:linuxlovermm5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器人避障是运动规划问题的一个分支,运动规划(Motion Planning)就是在给定的环境中,为环境中的个体找到一条符合人为约束条件的运动轨迹,该约束条件由人们所期望完成的任务决定,比如让机器臂用最简洁的方式完成一个抓取动作,或是让机器人在有障碍的环境中寻找一条无碰撞的路径等等。随着工业技术的飞速发展,以及当今社会对无人机、无人驾驶汽车等智能化产品的研究热潮,智能体的运动规划问题开始逐渐受到研究者们和工业界的重视。目前成熟的运动规划方法虽取得了较好效果,但大多需要人工示教或人工控制,成本较高,灵活性差,难以应对变化。但随着近年来深度学习算法的发展,让原本只停留在理论阶段的增强学习算法得到了长足的进步。深度学习是一种利用多层网络处理复杂数据的方法,结合了深度学习的深度增强学习算法已经在围棋,人机对抗领域取得了优异的成效。深度增强学习是人工智能发展道路上的必经之路,它描述了个体与环境交互的过程,即从对环境一无所知到适应环境并完成相应任务的学习过程。本文将既有的深度增强学习方法应用在机器人避障问题上,并针对既有算法的不足提出了自己的改进算法,通过算法的自主学习能力来训练模拟机器人的避障特性,并最终在真实机器人上进行尝试。本文首先介绍了运动规划和增强学习算法的研究背景和研究现状,接着介绍了传统的增强学习算法在避障问题中的应用,然后结合深度学习中的神经网络介绍了深度增强学习算法及其改进算法,最后针对既有算法的优缺点,提出了基于改进竞争网络的深度增强学习算法,并尝试应用在了真实机器人上。本文的主要内容如下:1.本文研究了传统增强学习算法在避障问题上的应用。首先介绍了传统增强学习的基本概念,然后介绍了增强学习的基本原理,最后通过仿真实验观察传统增强学习算法的性能并分析其优缺点。2.本文研究了基于深度增强学习的避障方法。深度增强学习算法首次将神经网络和增强学习思想结合在了一起,通过神经网络优秀的数据处理能力提升了增强学习算法适应复杂环境的能力。本文首先介绍了神经网络的基本概念和网络优化方法,然后介绍了经典的深度增强学习算法DQN以及其改进算法:Double DQN和Dueling DQN,最后通过实验对比了深度增强学习算法和传统增强学习算法在机器人避障问题上的性能差异。3.本文结合既有的深度增强学习算法,提出了改进的新算法模型。首先阐述了既有的DQN算法及其改进算法存在的不足,即没有对环境状态价值的评估和算法中的目标网络不可训练。然后针对其中的不足介绍了自己的改进算法,算法是基于竞争网络(Dueling Network)和Actor-Critic算法的思想改进的,通过实验,与既有的深度增强学习算法进行了性能对比,最后将训练好的网络模型载入到真实移动机器人上,分析了模拟效果和现实效果存在差异的原因。
其他文献
随着大型科研仪器日益丰富,其利用率和共享水平不高的问题逐渐凸显。华中科技大学在科研仪器开放共享工作中,狠抓源头管控,探索“1-5-5管理模式”,即提高开放共享认识,强化预
使每个特色小镇和小城镇都有一个特色主导产业,实现以产促城、以城兴产、产城融合。  近日,国家发改委首次公布了发改委副主任胡祖才在特色小(城)镇建设经验交流会上的总结讲话。他对当前特色小镇的问题和方向进行了高度提炼,并明确为特色小镇发展画出了四条红线。“坚持产业建镇,防止千镇一面”成为其中十分重要的一条红线。  产业是小城镇的生命力。坚持产业建镇,就是要根据区域要素禀赋和比较优势,挖掘本地最有基础、
<正>一、央企采购管理介绍目前国资委管辖的中央企业共有102家,涉及航天军工、信息技术、石油石化、地产建材等13个行业,经营范围广,资产规模大,是国民经济重要支柱。但央企
以CRS03为对象,研究了微机电陀螺的随机误差建模及滤波方法。针对输出信号非平稳的特点,采用时间序列分析方法,建立了CRS03输出信号的ARIMA模型,设计了基于此模型的Kalman滤