论文部分内容阅读
本文在增强学习和ART2神经网络的基础上,研究了移动机器人路径规划问题,并重点分析了路径规划中的避碰撞问题。本文主要的工作和创新点有以下三个方面:(1)首先针对增强学习中的策略问题,提出了一种渐进式Soft-Max行为选择策略;即在学习初始时,因为对行为掌握的经验知识不够,学习主要通过探索以得到行为的经验知识;在学习的后期则因积累了足够多的经验知识,可以更好地利用行为,同时也可以通过某种突变以达到加快或减慢学习速度的目的。其次针对连续性任务,提出了一种连续任务On-Policy增强学习方法S-Learning以及基于最先策略的增强学习方法FPRL(Foremost-Policy Reinforcement Learning),并在仿真实验中与传统的Q-Learning方法进行对比,以说明这两种增强学习方法的可行性。(2)为了解决增强学习中传统的策略查询表(lookup-table)不适合存储大量的状态值和行为值的问题,本文采用ART2神经网络存储大量的状态空间和分类模式。面对大量的分类模式,手工评估和选择分类模式是非常困难的,为此本文在ART2神经网络中引入增强学习评估和选择机制,结合成RL-ART2(Reinforcement Learning based ART2 Neural Network)神经网络,成功地解决了如何评估和选择已存储在ART2中的分类模式的问题。(3)提出了基于RL-ART2神经网络的移动机器人多障碍物避碰撞系统RLART2-CAS(RLART2-Collision Avoidance System)。为了解决多障碍物环境下,难于手工获取避碰撞规则的难题,本文采用增强学习的方法使系统可以自主获得避碰撞规则;采用RL-ART2神经网络,实现了增强学习和神经网络的集成,解决了规则存储需要占用大量内存空间的问题,并自动评估避碰效果,使系统能够通过学习获得理想的避碰行为,完成路径规划。