基于深度强化学习的无人驾驶决策方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:yujian136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在无人驾驶领域,驾驶决策是当前研究的热点和难点问题。深度强化学习(Deep Reinforcement Learning,DRL)算法寻求以端到端的方式解决问题,但一般需要大量的样本数据,同时面临输入数据复杂性高、模型复杂的问题,导致驾驶策略学习算法收敛速度慢,无法快速学习到有效策略。驾驶策略与多种因素相关,目前采用DRL的方法大多采用简单的约束奖励函数,仅能适应简单交通场景。由于实际交通场景复杂多变,导致现有的这类算法适应性较差。针对这些问题,本文提出一种基于多输入多因素约束奖励函数的驾驶决策算法框架。该方法的输入包括相机前视图、激光雷达数据及由感知结果生成的鸟瞰图。考虑到输入信息的维度高,本文研究了两种决策学习方法,并对方法的性能进行了评估。在两类策略学习方法中,奖励函数的设计均综合考虑了纵向误差、航向、驾驶平稳性、速度等多因素约束,可有效提高方法对场景的适应能力,加快策略学习的收敛速度。论文工作主要包括以下几个方面:(1)提出了一种多输入多因素约束奖励(Multi-Sensing input and Multi-factor Constraints,MSMC)的驾驶策略学习方法。分析了驾驶决策的输入信息特点,利用环境感知的结果,生成包含多类信息的鸟瞰图,选择三类数据作为学习方法的输入。设计了变分自动编码器(Variational Auto-Encoder,VAE)与软演员评论算法(Soft Actor Critic,SAC)相结合的决策学习框架。为了高效的利用多传感器输入的观测数据,利用VAE编码器网络提取低维潜在特征,作为决策学习算法的输入,从而加快策略训练过程。分析驾驶决策过程中的影响因素,基于矢量场制导定义了横向误差和方位角误差,在此基础上设计了多因素约束奖励函数,实现了可适应多场景的驾驶策略。(2)基于多输入多因素约束奖励的决策学习框架,采用随机潜在演员评论家算法(Stochastic Latent Actor Critic,SLAC)替代基于VAE的表示学习与SAC任务学习相互独立的策略学习方法,提出了多输入多因素约束奖励的SLAC方法(MSMC-SLAC)。利用部分可观测马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP)与概率图模型,将特征表示学习与策略学习联合建模,进一步提高了驾驶决策学习的效率,并扩展了方法对场景的适应性。(3)对所提出的算法进行了仿真验证。采用CARLA仿真器模拟了不同交通场景,利用Pygame软件包进行可视化设计。评估算法在不同输入数据组合下的性能表现;对比了本文所提的方法与其他DRL算法的性能;对多因素约束奖励项的重要性进行实验分析;对本文提出的两种方法进行了对比实验。在仿真环境下采用不同的地图验证了MSMC-SLAC算法的对多种交通场景的适应性。图61幅,表15个,参考文献64篇。
其他文献
深度学习在自然语言处理、图像识别领域的应用日益丰富。近年来,大量的研究涉及了医学影像的自动识别与辅助诊断。医学影像的识别成为了深度学习从计算机领域向医学领域延伸的热点和切入点。利用深度学习进行医疗影像的识别与检测,不仅从很大程度上能够缓解医疗资源的紧张,同时还可以避免人为因素导致的误诊、漏诊现象。尤其是在疾病爆发阶段,在面对大量医学影像时,利用计算机辅助医生进行医学图像的诊断,能够大幅提高诊断效率
近年来,随着科学和信息技术的飞速发展,各类系统的设计复杂度和各部件之间的耦合度也随之增加,系统的脆弱性问题逐渐显现,故障对系统的正常和安全运行造成不可忽视的威胁。为了提高系统对自身故障情况的监测和应对能力,学者们提出了自愈控制的思想。目前自愈控制仍然处于初级发展阶段,并没有学者给出自愈控制的明确定义和研究范畴等基本概念。在学术界对自愈控制理论的研究才刚刚起步,自愈控制理论的研究是滞后于自愈控制的工
人工智能的发展给医疗行业注入了强大的活力,依托人工智能技术的医学辅助诊断系统,可以有效地解决“患多医少”的压力,同时也能减少医学中的误诊现象,减少医患纠纷的发生。将化验单图像内容准确转换成结构化数据是医学辅助诊断系统安全可靠运行的保证,此外患者手上的纸质化验单图像数据也是医疗大数据的重要来源,中文化验单包含了中英文、符号和数字等混排形式的字符,且目前尚缺乏相关的公开数据集,如何将化验单内容准确自动
多能谱CT(Multi-energy Computed Tomography)可以在单次X射线照射下对分离的能量箱中的光子数进行计数,实现不同物质的识别。由于能量箱狭窄,多能谱CT分解后的物质图像往往具有较低的对比度,对低浓度物质的检测非常困难。同时,在CT浓度检测中需要已知质量衰减系数,约束性较高。针对这些问题,本文提出了基于CT值进行浓度检测的两种像素级浓度检测算法,尝试采用深度学习方法进行浓
数字图像广泛应用于新闻传媒、司法鉴定、法庭取证等各个领域,然而随着信息技术的发展,智能手机、相机的普及使得越来越多强大的数字图像编辑器得到开发和使用。更多的用户能够对图像进行自由随意的处理和修改,使得部分恶意用户有了可乘之机,因此图像的真实性和完整性难以保证。图像模糊操作的取证研究通过技术手段揭示图像操作历史,验证图像数据的真实性和完整性。本文基于传统特征方法和深度学习方法进行了模糊操作取证的研究
根据现行动车组检修规程的要求,动车组的运行里程是决定其进入高级修的时机的主要依据,准确的动车组运行里程预测结果是编制合理的高级修计划的基础前提。目前,随着我国高铁规模不断扩大,投入运营的动车组不断增多,各检修单位所能提供的高级修检修资源显得愈发有限,这对高级修检修计划的编制提出了新的挑战,也间接对动车组运行里程预测方法提出了更高的要求。当前普遍采用以动车组日均走行里程数为关键参数的推算法来预测动车
柔性机械臂具有多自由度、可以实现多方向弯曲以及布置灵活等显著优点,在工业中有广泛的用途。本文针对排水管道检测机器人和清淤机器人的需求,研制了电机-钢丝绳驱动的机械弹簧式柔性臂及摆动气缸驱动的复合软管式柔性臂,应用力学理论分析了两种机械柔性臂的弯曲特性,通过了实验验证并成功应用于排水管道检测与清淤机器人。本论文主要做了以下工作:建立两种柔性臂的弯曲静态模型并进行实验验证。通过力学分析,建立了弹簧在弯
与轮式和履带式机器人相比,步行移动机器人在面对复杂的地形环境时表现出更强的灵活性、适应性和机动性,因此被广泛应用众多领域,成为移动机器人的研究热点。根据支链的形式可将步行机器人分为开链式和闭链式两类,闭链连杆步行机器人因其具有多腿少驱动特性、曲柄周转高频驱动特性、整体闭链高刚度特性及高可靠性特性等优势受到广泛关注,但其单一的足端轨迹反映出其适应能力较低的缺点,限制了其应用场景,因此设计出一款具有高
干涉型光纤传感器由于其抗电磁干扰、耐腐蚀、探测灵敏度高、体积小、易于集成、探头本征无源等突出优势,在水声探测及地震海啸预警等领域中的研究和应用越来越广泛。在振动传感系统中,结合光学复用技术能够形成大规模的干涉型传感阵列,从而实现准分布式传感结构。同时基于声光调制器产生的脉冲信号具有较高消光比,有助于提升准分布式系统整体的性能。此外,干涉信号的相位解调方法也在检测过程中起到了关键性作用。因此以准分布
空间机械臂在太空中要完成许多复杂的任务,而且真空、失重、温差大的恶劣运行环境也为空间机械臂带来了很强的外扰,因此为空间机械臂设计精度高、抗扰能力强的位置控制策略是很有意义的。关节作为空间机械臂的核心组件,对空间机械臂的平稳运行起着至关重要的作用。关节的柔性、驱动电机的输出平稳性均影响空间机械臂的控制精度,因此本文考虑以上因素,对柔性关节机械臂系统的高精度位置控制开展研究。首先采用了基于端口受控哈密