论文部分内容阅读
自主移动机器人拥有在其所处的环境中运动的能力,能够不在人影响的情况下完成自主导航的任务。近年来,强化学习越来越多的应用于移动机器人自主导航,以提高移动机器人对连续变化的未知环境的适应能力。针对强化学习方法在连续状态空间在会出现“维数灾难”的问题,人们常常用函数逼近的方法建立状态空间与值函数之间的映射。其中,神经网络以其优越的函数逼近能力被广泛应用于强化学习当中,比如BP神经网络、径向基神经网络等。然而,这些方法都要求移动机器人具有一定的先验知识,缺乏自主性。本文采用ART2神经网络与强化学习相结合,设计实现了一种基于强化学习的移动机器人自主导航算法。主要工作如下:(1)分析了基于强化学习的移动机器人自主导航现存的问题,对基于Q-learning算法的移动机器人自主导航进行了仿真。就连续状态空间离散化问题,分别对区块法和模糊逻辑离散方法进行了设计,并通过仿真实验对比分析了两种方法存在自主性差、分类复杂、算法收敛速度慢等缺点。(2)设计了一种基于ART2神经网络的状态分类强化学习自主导航算法,结合ART2神经网络具有记忆的特点和强化学习的自主性,实现移动机器人导航过程的在线自主学习。利用ART2神经网络的竞争学习机制,使得移动机器人在学习过程中,无需人为的状态空间离散化,而是根据导航任务自主的对状态空间进行模式聚类,通过移动机器人不断的与环境进行交互,逐渐完善控制策略。既解决了连续状态空间“维数灾难”的问题,又提高了移动机器人导航的自主性。针对Q-learning强化学习每步只能对一个状态动作对进行更新的缺点,将资格迹引入强化学习过程,提高了移动机器人学习的效率。(3)基于Mobotsim仿真平台设计了仿真实验,验证了基于ART2的强化学习方法在移动机器人自主导航上的有效性;分别对包含资格迹和不含资格迹的强化学习算法进行了仿真对比实验,实验结果表明包含资格迹的强化学习算法具有更快的收敛速度,能够提高算法的学习效率。在不同环境中对本文算法进行了仿真,证明本文方法对不同环境的普适性;对不同动作选择策略在本文方法上的效果进行了对比实验;在障碍物位置可变环境中进行了仿真证明算法对动态环境具有一定的适应性。(4)搭建了移动机器人自主导航实验系统。采用超声波测距模块和视觉系统进行环境识别,开发了基于嵌入式的移动机器人控制系统,完成了超声波测距数据采集和基于V4L2的图像采集,实现了目标物体识别,移植了Qt库到开发板并基于Qt进行控制软件开发实现了远程监控功能;实现了开发板对机器人底盘的控制功能。在该平台上进行了基于不同状态划分方法的对比实验,验证了所提出方法的优势。