论文部分内容阅读
移动机器人在动态环境和未知静态环境中缺乏环境相关的先验知识,这就要求其具有较强的灵活性与适应性来应对各种状况。所以,针对静态环境中的移动机器人,本文研究并设计了基于深度自动编码器(Deep Auto-Encoder,DAE)与Q学习算法相结合的路径规划算法。然后,针对动态环境下的移动机器人,本文设计了两层规划策略,并且将遗传算法(Genetic Algorithm,GA)与Q学习算法应用在路径规划中。论文的主要研究工作和取得的研究成果如下:(1)在静态环境路径规划中,提出了深度自动编码器与Q学习算法相结合的数据处理方法。使用BP神经网络拟合深度自动编码器提取的环境特征数据与移动机器人位置数据,实现了环境特征与移动机器人全局坐标的非线性拟合。然后使用该BP神经网络输出的位置信息得到奖励值R,并将其反馈给Q学习算法进行Q值迭代。在Q值迭代过程中实现了自主学习,机器人不断地选择不同的运动方向行进使Q值达到最优,从而使规划的路径达到最优。最后,使用MATLAB对该方法进行了仿真实验,实验结果表明使用此方法提高了Q学习算法处理大规模数据的能力,打破了它只能处理小规模数据的限制。(2)在动态环境路径规划中,提出了先“离线”后“在线”的两层路径规划策略,对不同运动状态的物体采取不同的规划策略。第一层运用遗传算法从起始点到目标点进行全局路径规划躲避环境中的静态障碍物,规划出的路径作为原始路径。在第一层的基础上,第二层策略使用Q学习算法进行动态避障,当移动机器人与小车达到安全距离时,移动机器人就回到原始路径继续行走到达目标点。最后,使用V-REP机器人仿真平台对该方法进行了仿真实验,结果表明使用本文提出的两层路径规划策略实现了动态环境下的路径规划。(3)提出了一种新的Q值表设计方法,解决了Q学习算法应用在动态连续环境中存储空间不足和维数灾难问题。该方法将时间离散化为时刻,以“时刻-动作”为索引来建立Q值表,将根据状态选择动作的问题转化为根据时刻选择动作的问题。通过仿真实验验证了本文提出的Q值表设计方法的可行性,使Q学习算法可以应用于动态连续环境。本文利用Q学习算法与深度自动编码器相结合的数据处理方法,提高了Q学习算法处理大规模数据的能力,同时打破了Q学习算法只能处理小规模数据的限制。新的Q值表设计方法为研究Q学习算法在动态连续环境中的应用提供了新的思路和方法。此外,本文使用Q学习算法进行路径规划为以后研究智能机器人的自学习能力提供了理论基础和实验参考。