论文部分内容阅读
移动机器人在未知环境中的自适应导航和避障能力决定了其智能化的程度,提高移动机器人的自适应导航和避障能力一直是机器人领域研究的热点方向。目前,主要的自适应导航和避障的算法有人工势能法、模糊规则控制法、遗传算法等。但是这些算法的自适应能力不强,需要较多的环境先验知识,难以有效地实现移动机器人在完全未知环境中的自适应导航和避障。强化学习是一种通过与环境交互调整自己的行动策略,最终找到实现目标的最优策略的机器学习算法。基于强化学习的自适应导航和避障算法能很好的解决上面提到的问题,具有很强的自适应能力。但是,强化学习方法训练时间过长,收敛慢。本文的研究方向为使用强化学习中的Q-learning算法实现移动机器人在未知环境中的导航和避障,并对Q-learning算法进行优化来提高其收敛速度。本文首先定义了移动机器人的运行环境状态、动作形式、奖励函数等强化学习的基本要素。然后,提出了两种改进的Q-learning优化模型:1)基于任务的附加奖励函数的Q-learning模型;2)基于Q-learning的混合Dyna模型。最后,分别使用这两种模型在HBE-SmartCAR移动机器人上进行实验,并与其他模型进行比较分析,实验结果表明这两种模型能有效提高算法的收敛效率。本文的主要贡献点如下:(1)使用ARIMA模型对移动机器人的声呐数据进行处理,减少了数据噪音,提高了声呐数据的稳定性。(2)提出了一种基于任务的附加奖赏函数,在不依赖先验环境的同时,提高了Q-learning算法的收敛速度。(3)提出了一种基于Q-learning的混合Dyna算法,该混合模型分别在以下方面做了改进:a)使用CMAC神经网络对环境进行模拟,在训练过程中对动作值函数进行计划更新;b)使用优先级队列减少了普通Dyna模型中规划更新的随机性,提高了规划更新的效率;c)使用了本文提出的一种基于目标的动作值函数初始化方法来初始化Q表,在不借助先验环境的基础上有效地减少了移动机器人前期探索的盲目性;d)使用了一种基于神经网络的启发式动作选择方式来提高移动机器人动作选择的效率;e)使用了基于目标的附加奖赏函数来提高奖赏值的有效性。