【摘 要】
:
随着人工智能、5G等前沿技术的高速发展,以及人类对驾驶车辆安全性、缓解交通拥堵等方面的急切需求,智能汽车已成为现代汽车工业的发展重点,将人工智能算法与无人驾驶技术相结合已成为现阶段各国学者的研究热点。深度强化学习(DRL)作为人工智能领域具有决策功能的杰出算法,在解决复杂的控制任务中有着自主学习等多方面优势,对实现无人驾驶车辆的智能控制具有重要意义。本文将深度强化学习算法应用于无人驾驶智能控制策略
论文部分内容阅读
随着人工智能、5G等前沿技术的高速发展,以及人类对驾驶车辆安全性、缓解交通拥堵等方面的急切需求,智能汽车已成为现代汽车工业的发展重点,将人工智能算法与无人驾驶技术相结合已成为现阶段各国学者的研究热点。深度强化学习(DRL)作为人工智能领域具有决策功能的杰出算法,在解决复杂的控制任务中有着自主学习等多方面优势,对实现无人驾驶车辆的智能控制具有重要意义。本文将深度强化学习算法应用于无人驾驶智能控制策略的学习中,并采用开源赛车模拟器(TORCS)仿真环境验证了算法的有效性。本文首先针对深度确定性策略梯度(DDPG)算法存在价值高估偏差,训练参数脆弱等问题,决定采用基于DDPG算法改进的双延迟深度确定性策略梯度(TD3)算法作为无人驾驶车辆的智能控制算法。并针对TD3算法中由于采用固定延迟步长的策略更新,没有考虑价值估计的动态性,从而影响策略学习效率的问题,本文提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度(DD-TD3)算法,DD-TD3算法将价值网络更新损失的指数加权移动平均值(EWMA)设置为动态延迟步长的更新标准,并以此标准指导策略网络延迟更新。然后,针对TD3算法在训练过程中对经验回放体中的经验样本进行随机采样,并未考虑经验样本重要性差异,从而导致算法训练效率低、训练过程不稳定的问题。本文设计了一种强调优秀经验的回放体(EOE Buffer),该回放体通过立即奖励的指数加权移动平均值对经验样本进行重要性分类,通过增加在优秀经验样本中的采样频率来提高算法的训练效率。针对神经网络的灾难性遗忘问题,通过深入研究深度强化学习算法训练过程中初始探索经验的重要性,设计将初始探索经验保留在EOE Buffer中以提高TD3算法持续学习的能力。通过在Pendulum-v0环境下进行实验测试。验证了DD-TD3算法及EOE Buffer的有效性。最后,以无人驾驶车辆控制为应用实例,采用基于EOE Buffer的DD-TD3算法(EOE DD-TD3)对TORCS仿真环境中的车辆进行智能驾驶控制。通过对实验结果的分析,验证了上述算法在学习无人驾驶智能控制策略过程中的有效性。
其他文献
铜是各种生物相当重要的微量元素之一,它参与构成生物体内的多种蛋白,而这些蛋白起着重要的生理作用。对于水生动物,水体中的铜会在水生动物体内发生富集,干扰正常的代谢,甚
随着汽车保有量的增加,交通事故频发,汽车安全已经成为了日益严重的社会问题。主动安全主要用于避免事故,同时也有助于提高车辆的稳定性。车辆是具有参数不确定性、高度非线性动态特性及时滞等特点的耦合系统。执行机构时滞的存在会对车辆系统稳定性产生影响,甚至会造成汽车失稳。因此对车辆系统稳定性的研究不可避免的要考虑执行机构时滞的影响。特别是当系统处于高速或低附着路面行驶时,主动安全系统需要极快的响应时间,此时
Borcherds引入的顶点代数在许多数学领域都有着十分重要的作用,比如无限维李代数的表示、代数几何、有限群论、可积系统以及模函数等等,它还为被物理学家们广泛研究的二维共
非编码RNA(non-coding RNA,ncRNA)是指生物基因组内不编码蛋白质的RNA,曾被认为是与基因表达无关的“基因垃圾”。研究表明,大部分植物基因组被转录成非编码RNA,它们通过与蛋
随着人类科技的进步,全球海洋所拥有的巨大资源不断的被人类所发掘出来。而探索海洋资源、收集海洋资源数据所需要的各类海洋平台也变得多种多样,波浪滑翔器以其出色的续航性
针对松软、低渗煤层开发煤层气单井产量低的问题,以往直井压裂支撑剂嵌入严重、多分支水平井井眼稳定性差,常规增产改造技术效果比较有限,而在煤层岩性稳定的虚拟产层(即顶板
高分辨率的遥感图像在环境检测,土地覆盖分类,城市经济水平评估和资源勘探等领域具有广泛的应用。但是从卫星光学成像传感器捕获的遥感图像在传输中受相对运动、大气扰动和噪声等因素的影响,遥感图像的质量有限,难以满足实际场景的应用。图像的超分辨率重建技术打破了硬件设备和工艺的限制,从软件和算法层面提升图像质量。因此,遥感图像的超分辨率重建,是一种经济有效的获取高分辨率遥感图像的方法。随着深度学习在各个领域的
预氧化阶段是高性能碳纤维制备长流程中非常重要的一环,在此阶段PAN原丝会在热场环境下,由有机线性大分子链转变为具有基础六元环的梯形结构,从而使纤维具有良好的热稳定性,
能源是维持生活及经济的物质基础,是一个国家安全与发展的命脉所在。我国能源储存的基本特点可以归纳为“富煤、贫油、少气”,煤作为重要的基础能源和生产原料,在我国国民经
带阻尼支座的楼梯间作为一种新的消能减震楼梯间,通过阻尼支座中的弹簧单元与阻尼单元的联合作用,消除了由地震带来的梯段板的斜撑效应和楼梯间结构对建筑物结构产生的过强的约束效应,提高了楼梯间结构及其主体结构的的抗震性能,保障楼梯间结构在地震中的功能相对完整。本文对带阻尼支座的楼梯间的减震性能以及设计参数对其减震的影响,并将同为粘滞阻尼器的阻尼支撑作为对比,对比两者在对楼梯间减震消能方面的优劣,主要的研究