基于强化学习的无地图搜索导航

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:playboy200000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器人技术的发展,人们要求移动机器人在未知领域自动探索并完成任务要求,与传统方法相比,新一代基于深度学习算法的强化学习技术不依赖先验地图信息就可以完成搜索导航任务,可对复杂未知环境进行探索。本文基于深度强化学习对移动机器人的轨迹规划,搜索导航技术进行研究,重点研究了基于值函数的深度Q学习算法,基于Actor-Critic的A3C算法以及激励移动机器人进行主动探索的内驱动技术。论文主要内容如下:首先,分析了时间差分的算法模型,以该模型为采样模型,研究并实现了深度Q学习算法,针对地图环境可能较为复杂的特点,加入了经验回放机制和固定网络模型技术,增强了网络的承载能力和网络的收敛能力。通过实验验证了算法的有效性。其次,在明确了搜索地图很复杂后,针对深度Q学习训练较困难,收敛较慢的特点,研究了一种综合了深度Q学习和基于策略类强化学习算法的Actor-Critic类算法,在AC模型,A2C模型和A3C模型中选择了A3C模型,该算法通过多个计算机线程分别进行探索,并对结果进行汇总,该算法兼具了深度Q学习和基于策略类算法的优点,在单步训练的同时还可以输出策略概率。最终,在训练的收敛性和稳定性上都远优于深度Q学习算法。最后,为了增强移动机器人的探索能力,研究并加入了模仿人类探索心里的内驱动机制。通过产生奖励的方法,鼓励移动机器人更多的在初期进行探索而不是局限于已开发的部分。经过实验论证证明,在同一类算法中,当给移动机器人的奖励中加入内驱动的确可以更快的让移动机器人实现地图完全覆盖。
其他文献
三维重建是计算机视觉领域中一个研究热点,在医学研究、文物保护、游戏设计等领域有着广泛的应用。三维重建的过程包括采集点云数据、点云配准和融合以及表面重构。本文将对
新型家庭医生签约服务是新医改的方向,在推进该服务的过程中,存在宣传力度不够,居民不理解、不配合,有资格签约医生人员不足,相应的家庭医生签约机制不完善等问题。如何实现
获得设计工作坊中团队合作的特征,为更好的在设计教学中组织设计工作坊提供参考。分析了设计工作坊的团队组成特点,总结出了人员结构与领导力两个分析维度;使用口语分析的方
地表植被变化是全球气候变化研究的重要内容之一,是广受各国学者关注的热点问题。近年来,随着遥感技术的不断发展和历史数据的积累,针对区域尺度长时间序列的植被变化研究趋
法律是权力的体现,法律语言也应体现权力性这种特征。本文以韩礼德的系统功能语言学的主位结构理论为基础,以国际知识产权法中的《保护和促进文化表现形式多样性公约》为个案,研
目的:探讨佩戴月抛型角膜接触镜,分别佩戴水凝胶材质镜片与硅水凝胶材质镜片对眼表健康情况、泪膜分级等的影响。方法:随机选取来我店验配软性角膜接触镜的患者40人(80眼),分别佩
随着中国经济的快速发展,房地产行业在发展过程中经历了许多严峻的考验。如何促进房地产业的健康发展已成为政府部门和学者关注的焦点。REITs作为一种创新的金融产品,一方面可以解决房地产企业的融资困难的问题,另一方面为市场化投资者提供参与房地产投资的机会。这对于推动中国房地产业和国民经济的发展具有重要意义。本文通过研究房地产投资信托基金(REITs)的起源与发展,梳理了美国REITs和亚洲一些国家REI
规范整理,是精准扶贫档案工作的重要环节。今年以来,按照烟台市档案局与烟台市扶贫办联合印发的《精准扶贫档案规范化管理建设年方案》,我们开展了系列调研工作、研讨等工作,