基于深度确定性策略梯度算法的自动驾驶车道保持研究

来源 :东北大学 | 被引量 : 0次 | 上传用户：info1

【摘要】

：

【作者】

：

潘广强

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着个人拥有车辆的增多,伴随着交通负担的加重,自动驾驶技术应运而生,其出现理论上可以避免人由于疲劳、酒驾等人为原因造成的严重后果。尽管自动驾驶经过多年发展,由于一直使用传统控制,导致关键技术在现阶段存在不足,仍然不能达到完全商用的场合。人工智能在很多场合得到了广泛的应用,国内外高校、企业在自动驾驶领域进行了深入的研究,取得了重大的进步,同样存在一些问题。传统的模型预测控制有其天然的模型约束处理优势,能够与规划控制、感知过程的传感器数据预处理算法很好地结合,是在无人驾驶车辆控制过程中体现车辆动力学与运动学约束的理想方法;但是模型预测控制算法较为复杂,计算方法复杂,需要建立复杂的非线性控制模型,如果控制模型更加复杂,算法几何级增长。针对以上问题,本文使用强化学习领域近些年来提出的理论,提出一种整体系统设计方案。研究基于DavidSilver等在2016年的国际学习表征会议（ICLR）提出的深度确定性策略梯度（即Deep Deterministic Policy Gradient,下文称DDPG）算法理论,以仿真平台为研究对象构造端对端的自动驾驶行为决策系统。由于自动驾驶存在一定危险性和不确定性,实验过程在仿真环境Carla中进行,无人车作为强化学习的智能体（agent）和环境交互产生经验数据,供给深度网络进行训练。训练的数据来自于仿真环境的图像,车道线识别与车道保持来自于处理后的语义分割图形,网络通过仿真环境将控制信号发送给无人车。实验的结果通过强化学习通用的回报函数的平均值进行量化表达。本文的相关工作如下:（1）对原有的无人车实现方案进行综述,发现传统的状态机、端对端神经网络等模型具有维数灾难、对复杂环境无法判断等问题,由此引出本文的强化学习实现方法。然后介绍强化学习的基本理论,对经典的强化学习方法进行综述,根据现有的问题,最终选择深度确定性策略梯度即DDPG算法,然后介绍仿真平台,在仿真平台进行初步实验,仿真平台提供各种数据,其中语义分割图形是车道线保持的重要数据输入来源。（2）针对无人车原地不动或者移动缓慢,提出改造神经网络激活函数方法和增加隐藏层数量,经过实验发现无明显效果。针对该问题,提出对原始DDPG算法加入噪声,并对两种噪声进行对比探究,最终确定使用OU噪声,然后加入正则化等改进,进行了仿真实验,实验结果证明改进后的算法能够满足在第一个环境中的车道保持,但是对于陌生环境无法适应。（3）针对无人车在转弯冲出路线,减速不明显问题,提出改造回报函数的方法,利用动力学特点,合理限制其转弯速度,由于回报函数是强化学习的最终学习方向,所以对转弯超速行为进行惩罚,经过仿真发现解决了该问题。针对训练缓慢,提出载入模仿学习模型,加速了模型的收敛效率,但是对于最终效果无明显改善效果。（4）为进一步提高系统性能,借鉴他人提出的经验缓存池分割方案,按照不同的标准对经验缓冲池进行分割,并且在训练时,分别采样成功和失败的样本,对进一步加速模型的收敛起到了积极的作用,经过仿真实验表明,该方法优于优先经验采样。综上所述,本文提出的改造后的DDPG算法改进能够满足车道线保持的要求,对该算法的其他改善能够进一步提升其性能,但是该模型无法在陌生环境中得到很好的应用,而且对于强化学习,回报函数的定义没有统一的标准,未来的工作需要利用逆强化学习等方法进行深入研究。

其他文献

阐释学理论视角下的《寻觅古人之足迹》（节选）英汉翻译实践报告

本翻译实践报告基于阐释学,在乔治·斯坦纳翻译四步法的指导下,对罗伊·查普曼·安德鲁斯的《寻觅古人之足迹》进行翻译实践和译本分析。翻译四步法为信任、侵入、吸收和补偿。作为一名中国人,译者凭借自身的语言文化能力能够较为准确地传达源文本的内涵,同时该译本也能够引起中国读者的共鸣。在侵入这一过程中,译者首先对相关的背景信息进行侵入,以求准确地传达当时中国的背景信息;其次为更好地满足目标语读者的阅读需求,译

学位

久泻治脾不如治肾效验

＜正＞ 1987年2月3日,本乡井边兴村李新明家牛前来就诊。主诉该牛已泄泻十余天,曾灌服参苓白术散加味（党参、白术、茯苓、山药、白扁豆、莲肉、桔梗、砂仁、薏苡仁、泽泻、粟壳、生草）,连服二剂不效。症见:口温低,唇色淡白,舌色淡红,脉沉滑无力,日泻轻,晚泻重,毛焦肷吊、食欲不振,反刍减少。“久泻治脾不

期刊

以营销视角探析国防科研单位招聘渠道问题与对策

当前，国防科研单位面对外部激烈的招聘竞争和内部持续增长的人才需求，运用传统的招聘渠道已不能有效满足国防科技事业对科技人才的迫切需求。文章通过分析国防科研单位科技人才招聘的需求特点和现状，剖析国防科研单位在招聘渠道建设上存在的主要问题，提出解决招聘渠道问题的营销策略，为提高国防科研单位招聘质量和效率，快速建立人才竞争优势提出了相关建议。

期刊

数字文化企业产业链延伸及绩效分析——以捷成股份为例

近年来,随着我国社会和经济的快速发展,人民群众在精神和文化层面的需求逐步提高。在国家政策的扶持下,数字文化产业这一新兴产业以其创新性、多元化的优势催生了新模式新业态,与数字技术进行融合将会成为未来文化产业发展的新趋势。但我国数字文化产业的发展时间较短、中小企业数量较多、行业体系尚未成熟,在此背景下不少企业纷纷实施产业链延伸战略,以加强与上下游领域间的合作。针对数字文化企业实施产业链延伸战略的方式以

学位

释意理论视角下的模拟英汉交替传译报告——以“变化的科技，变化的出行”讲座为例

本文是基于讲座“变化的技术、变化的出行”模拟英汉交替传译实践报告。近年来,无人驾驶技术和Uber和Lyft等打车公司的出现改变了人们的出行方式。城市规划者也开始重新规划城市布局,以适应城市发展。本次报告选择该讲座作为口译材料,帮助目的语观众更好地了解新兴技术与城市规划之间的关系。本次实践报告以释意理论为指导,旨在解决此次实践中遇到以下四个难点:术语、句子成分不完整和未表明的逻辑,导致的句子逻辑不清

学位

基于深度学习的高铁道岔位置识别装置的研究与设计

国内高速铁路发展速度十分迅猛,同时安全问题也得到越来越多的关注。尖轨和基本轨之间的密贴度是高速铁路中很多故障的直接表象,目前使用的密贴度监测设备是基于机械结构,这种设备随着服役年限的增长,可靠性会越来越低。因此本文针对这个问题,提出采用机器视觉技术来进行解决。并且针对复杂气象条件下图像特征不易提取的问题,提出采用深度学习算法来进行解决。文中通过高速铁路道岔现有监测技术进行分析,可以确定采用机器视觉

学位

基于机器学习的智能家庭能源管理系统研究

能源与家庭的日常生活和生存息息相关,是家庭中利用率最高的资源之一。如果不使用能源,人类将很难生存,尤其是在这个几乎所有领域和部门都处于多样化技术创新的时代。但是,自工业革命以来的过去几十年中,能源消耗引发了许多问题,需要更好,更体面的方式来进行能源的开采,利用和消耗。本研究将着重于使用当前技术来监测和减少家庭应用中的能源浪费,提出家庭能量管理系统。具体研究内容如下:（1）基于学者们的一般观察和研究

学位

基于准Z源逆变器的光伏并网/储能组合控制研究

光伏发电作为新能源开发领域的一个重要方面,得到了国内外众多学者的广泛关注。光伏并网逆变器作为连接太阳能电池阵列与公用电网的桥梁,是实现光伏发电系统安全、高效、稳定运行的关键。由于受气候变化等不确定因素的影响,光伏发电系统的输出功率具有典型的间歇性和波动性特征,通过蓄电池等存储装置及其控制能平抑光伏发电系统供电输出的随机性和间歇性,因此,储能技术在新能源发电系统中具有重要的地位和作用。（1）本文首先

学位

基于机理与学习融合的火焰检测算法研究

火灾是一种极其常见的自然灾害,火灾的预防与检测在许多场合下都显得尤为重要。传统的火焰探测器往往存在检测范围小,反应慢,设备易老化等缺陷,不能满足部分场合下的火灾检测与监控需求,而基于图像的火焰检测技术通过图像处理以及深度学习等相关方法进行画面中有无火焰的检测,可很好地避免传统火焰探测器的缺陷。针对火焰检测问题,本文设计了三种火焰检测算法,对它们的性能进行了对比分析,并构建了基于视频的火焰检测仿真系

学位

高中生外语课堂焦虑与自主管理策略的相关性研究

在二语习得研究中,外语课堂焦虑一直备受关注。研究者主要研究使用具体的策略来缓解学生的外语课堂焦虑,并且更关注教师在学习者学习过程中的作用。由于中国学校课堂人数较多,教师不容易关注到个人。所以,学习者使用自主管理策略在语言学习过程中具有重要意义。因此,本研究旨在研究中国高中生外语课堂焦虑与学习者自主管理策略的使用之间的相关性。本研究的研究问题是:（1）高中生的外语课堂焦虑的使用情况如何?（2）高中生

学位

基于深度确定性策略梯度算法的自动驾驶车道保持研究

与本文相关的学术论文