论文部分内容阅读
路径规划是无人车实现自主化和智能化的关键技术之一,由于实际环境的多样化,就需要路径规划算法具有较高的适应性。因此,本文采用对环境有较高适应性的深度强化学习算法(Deep Reinforcement Learning,DRL)进行无人车路径规划研究。首先基于DQN(Deep Q-Learning Network,DQN)算法实现静态环境的路径规划;其次通过A3C(Asynchronous advantage actor-critic,A3C)算法实现动态环境的路径规划;最终将前两种算法框架相结合,基于DDPG(Deep Deterministic Policy Gradient,DDPG)算法实现在复杂连续环境中的实验研究。本文的主要研究内容如下:(1)基于DQN算法的静态路径规划研究针对经典的DQN算法在实现无人车路径规划中会出现探索能力差、训练时间过长的问题,首先通过简化状态空间和设计算法的奖励函数,提高神经网络的训练效率和算法的探索能力;其次通过建立不同尺寸的栅格地图进行仿真实验。仿真实验结果表明,改进后的算法不仅在小型地图上有较好的表现,同时当环境状态量较大时,也有较高的训练效率和鲁棒性。(2)基于A3C算法的动态路径规划研究针对动态环境下无人车的动态避障问题,本章基于Actor-Critic算法框架,采用A3C算法进行动态环境的路径规划研究。为更好的处理动态问题,以RNN(Rerrent Neural Ne twork,RNN)循环神经网络与全连接层相结合的方式搭建神经网络模型,并使用多线程的方式进行模型的训练,最终通过搭建动态栅格环境来进行仿真实验,实验结果表明,该方法可以进行有效避障,得到一条无碰撞路径。(3)基于复杂连续空间内的路径规划研究针对无人车在复杂连续环境中,DDPG算法收敛速度慢、训练效率低的问题。本章通过设计奖励函数,调整算法的探索策略来提高算法模型的探索效率。同时为了更贴近实际情况,本章的仿真环境为TORCS模拟器,在模拟器上的仿真结果表明,算法模型可以快速收敛,完成无人车的路径规划,最终进行实车实验来验证算法的鲁棒性。