基于强化学习的服务机器人导航研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:huahua_yang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步和人们对生活水平的追求,服务机器人作为机器人家庭中的新生一员应运而生,在医疗救助、家庭服务、娱乐项目等领域发挥着重大作用。而自主导航是服务机器人最基本、最重要的能力,也是其它应用的基础;但由于其应用环境的非结构化和复杂多样性,给其自主导航能力提出了更高的要求。近年来,随着智能科学的兴起和发展,如何在机器人与环境的交互中通过自主学习来提高机器人的智能水平,使其更好的适应复杂环境已经成为机器人学中研究的热点问题。而强化学习无需数学模型和先验知识,只需通过与环境的交互试错学习就可得到相应优化控制策略,因此可应用于服务机器人的导航控制中。本文在研究分析了强化学习的特点并结合服务机器人工作环境的特点后,将强化学习方法应用于服务机器人的导航控制中。首先,针对未知环境下探索服务机器人导航,采用了基于强化学习的反应式导航控制。设计了相应的状态空间划分方法,设计了离散奖赏回报和连续奖赏回报相结合的奖赏回报函数,并将加入资格迹的Q学习强化学习算法引入到该环境下机器人的导航控制中以加快学习速度。通过仿真实验验证了该强化学习系统设计的可行性。其次,研究了强化学习在基于环境地图信息的路径规划中的应用,采用了地图网格离散状态化划分方法,重点采取了“轮盘旋转学习策略”来改进了Q学习算法的学习过程,通过仿真实验验证了该学习策略可以缩短学习时间并能保证学习的快速收敛性和路径规划的最优性。最后,针对动态环境下的机器人导航问题,为克服易陷于局部极小和动态适应环境能力差等问题,本文采用了基于强化学习的路径规划与模糊避障相融合的综合式导航控制策略来设计服务机器人的导航算法,能吸取强化学习全局路径规划和模糊快速局部避障的优点。在机器人导航的过程中,综合式导航控制算法能将快速避障和目标寻优相结合,实现复杂的导航策略。随后用仿真和试验证明了这种导航控制策略的可行性和优越性。
其他文献
近年来,随着计算机技术的迅速发展,对物体或景物三维模型的需求越来越多。随之计算机视觉技术也飞速发展起来,其中机器人视觉是计算机视觉发展的一个主要方向。机器人可以代
支持向量机(Support Vector Machine,SVM)是基于统计学习理论和结构风险最小化(Structural Risk Minimization,SRM)原则的一种机器学习方法。核参数、经验风险和置信风险的折中
机器人的视觉系统是当前机器人技术的研究重点之一,该系统依靠摄像机获取外界信息并对环境的变化做出反应,而目标识别则是机器人视觉系统中的关键技术。本文主要研究了在室内
近年来,随着城市中人口数量的不断增多与房价的不断上涨,老百姓的住房问题也日益突出。为了改善这个问题,政府不断地加大了对公租房的投入力度。但公租房在实际的管理过程中,
敏捷小卫星具有比常规小卫星至少高一个数量级的快速机动能力,该敏捷机动能力是很多军事或商业任务如空间监视、高精度对地观测的要求,为了实现该类小卫星的大角度快速机动,
随着人们生活水平的不断进步,对于家居环境要求也日益增高。智能家居的出现,满足了人们的需求。智能家居系统将相对独立的电器产品智能地连接在一起,提供全方位信息交换功能,
工业喷墨打印机在我们日常工作中扮演着越来越重要的角色,其稳定性和可靠性直接影响着我们生产效率和工作效率。稳定性和可靠性是影响喷墨打印机性能及发展的重要因素,目前的
用于助老、助残的助行机器人的研究和设计是在老龄化不断加深的背景下提出的。助行机器人的设计是为了满足老年人或残疾人对自主、安全远程出行的需求,具有实际价值和研究意
磨矿过程是冶金工业领域的重要工序,也是选矿过程中重要的环节之一。而磨矿过程机理复杂,影响因素多,并且过程具有时变性、多变量、大滞后以及非线性等特征。因而,对磨矿过程
流程工业系统包含众多过程变量以及各种复杂的物理、化学变化。采用传统的机理模型对这样的过程进行建模难度较大。基于数据驱动的建模方法是基于过程采集数据建立的,具有不