基于深度强化学习的无人车路径规划研究

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:alex851123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
路径规划是无人车实现自主化和智能化的关键技术之一,由于实际环境的多样化,就需要路径规划算法具有较高的适应性。因此,本文采用对环境有较高适应性的深度强化学习算法(Deep Reinforcement Learning,DRL)进行无人车路径规划研究。首先基于DQN(Deep Q-Learning Network,DQN)算法实现静态环境的路径规划;其次通过A3C(Asynchronous advantage actor-critic,A3C)算法实现动态环境的路径规划;最终将前两种算法框架相结合,基于DDPG(Deep Deterministic Policy Gradient,DDPG)算法实现在复杂连续环境中的实验研究。本文的主要研究内容如下:(1)基于DQN算法的静态路径规划研究针对经典的DQN算法在实现无人车路径规划中会出现探索能力差、训练时间过长的问题,首先通过简化状态空间和设计算法的奖励函数,提高神经网络的训练效率和算法的探索能力;其次通过建立不同尺寸的栅格地图进行仿真实验。仿真实验结果表明,改进后的算法不仅在小型地图上有较好的表现,同时当环境状态量较大时,也有较高的训练效率和鲁棒性。(2)基于A3C算法的动态路径规划研究针对动态环境下无人车的动态避障问题,本章基于Actor-Critic算法框架,采用A3C算法进行动态环境的路径规划研究。为更好的处理动态问题,以RNN(Rerrent Neural Ne twork,RNN)循环神经网络与全连接层相结合的方式搭建神经网络模型,并使用多线程的方式进行模型的训练,最终通过搭建动态栅格环境来进行仿真实验,实验结果表明,该方法可以进行有效避障,得到一条无碰撞路径。(3)基于复杂连续空间内的路径规划研究针对无人车在复杂连续环境中,DDPG算法收敛速度慢、训练效率低的问题。本章通过设计奖励函数,调整算法的探索策略来提高算法模型的探索效率。同时为了更贴近实际情况,本章的仿真环境为TORCS模拟器,在模拟器上的仿真结果表明,算法模型可以快速收敛,完成无人车的路径规划,最终进行实车实验来验证算法的鲁棒性。
其他文献
随着大数据时代的深入发展,信息过载现象让人们难以在互联网中找到符合自己兴趣的信息。推荐系统由此出现,不仅能帮助用户筛选出喜欢的信息,而且提高了平台在个性化营销上的收益。推荐系统发展至今,数据稀疏性、冷启动、实时性问题是影响推荐质量的主要因素,且单一算法和单点计算已经无法满足当今平台的需求。针对上述存在的问题,本文做出了以下工作:(1)对于数据稀疏性问题,本文将矩阵分解和因子分解机模型使用到离线计算
学位
学位
谢福华,1981年2月生,黑河市孙吴县市场监督管理局党组成员、四级主任科员,现任黑河市孙吴县市场监督管理局驻奋斗乡靠山村第一书记、工作队队长。驻村以来,他扎根基层、服务群众,使全村各项事业发展取得显著成效。2018年底,全村42户贫困户全部脱贫。驻村工作队连续三年获得"先进驻村工作队"称号,谢福华多次被评为县级"优秀公务员"。
期刊
学位
学位
赵学文,男,土家族,1961年12月生,中共党员,大专学历,现任湖北省利川市民宗局经济发展股股长。曾先后被省民宗委评为"民族体育先进工作者"、被市委市政府评为"先进工作者",多次被评为利川市"优秀公务员""优秀共产党员"。爱岗敬业,甘于奉献。注重工作细节,力求工作实效。大力推进民族文化传承弘扬,先后参与编撰《土家族研究》《民族文化系列丛书》等书籍并获得好评。
期刊
学位
学位
学位