论文部分内容阅读
随着科技的进步和人们对生活水平的追求,服务机器人作为机器人家庭中的新生一员应运而生,在医疗救助、家庭服务、娱乐项目等领域发挥着重大作用。而自主导航是服务机器人最基本、最重要的能力,也是其它应用的基础;但由于其应用环境的非结构化和复杂多样性,给其自主导航能力提出了更高的要求。近年来,随着智能科学的兴起和发展,如何在机器人与环境的交互中通过自主学习来提高机器人的智能水平,使其更好的适应复杂环境已经成为机器人学中研究的热点问题。而强化学习无需数学模型和先验知识,只需通过与环境的交互试错学习就可得到相应优化控制策略,因此可应用于服务机器人的导航控制中。本文在研究分析了强化学习的特点并结合服务机器人工作环境的特点后,将强化学习方法应用于服务机器人的导航控制中。首先,针对未知环境下探索服务机器人导航,采用了基于强化学习的反应式导航控制。设计了相应的状态空间划分方法,设计了离散奖赏回报和连续奖赏回报相结合的奖赏回报函数,并将加入资格迹的Q学习强化学习算法引入到该环境下机器人的导航控制中以加快学习速度。通过仿真实验验证了该强化学习系统设计的可行性。其次,研究了强化学习在基于环境地图信息的路径规划中的应用,采用了地图网格离散状态化划分方法,重点采取了“轮盘旋转学习策略”来改进了Q学习算法的学习过程,通过仿真实验验证了该学习策略可以缩短学习时间并能保证学习的快速收敛性和路径规划的最优性。最后,针对动态环境下的机器人导航问题,为克服易陷于局部极小和动态适应环境能力差等问题,本文采用了基于强化学习的路径规划与模糊避障相融合的综合式导航控制策略来设计服务机器人的导航算法,能吸取强化学习全局路径规划和模糊快速局部避障的优点。在机器人导航的过程中,综合式导航控制算法能将快速避障和目标寻优相结合,实现复杂的导航策略。随后用仿真和试验证明了这种导航控制策略的可行性和优越性。