【摘 要】
:
行为决策模块作为无人驾驶汽车的大脑,占有重要地位。近年来,强化学习逐渐被引入该领域,并取得了一系列成果,但仍存在场景遍历广度不足、泛化性、无法实现数据驱动、短视性等问题,本文通过设计分层行为决策框架、合理设计智能体观测空间、迁移应用BCQ(Batch-Constrained Deep Q-learning)算法、设计混合动作空间等方法来解决这些问题。本文主要工作如下:(1)为解决场景遍历广度不足的
论文部分内容阅读
行为决策模块作为无人驾驶汽车的大脑,占有重要地位。近年来,强化学习逐渐被引入该领域,并取得了一系列成果,但仍存在场景遍历广度不足、泛化性、无法实现数据驱动、短视性等问题,本文通过设计分层行为决策框架、合理设计智能体观测空间、迁移应用BCQ(Batch-Constrained Deep Q-learning)算法、设计混合动作空间等方法来解决这些问题。本文主要工作如下:(1)为解决场景遍历广度不足的问题,设计分层行为决策框架,将基于规则和基于学习的两种行为决策系统进行结合。在顶层,本论文考虑城市中的四种典型场景,采用基于规则的有限状态机实现各场景间的切换,使系统具有良好的可扩展性,能够遍历足够丰富的场景。在底层,为每个场景训练一个智能体,使用强化学习实现对指定场景的深度遍历,以提高决策精度。无人车在城市环境中行驶时,首先用有限状态机确定汽车所处的场景,然后选择相应的智能体进行决策。(2)为解决从仿真环境到真实环境的泛化性问题,本文将高层次的语义信息作为智能体的输入,同时针对不同场景,分析智能体输入的差异,为各个场景下的智能体研究设计合理有效的观测空间。为引导智能体训练,本文以安全性、遵守交通规则、任务完成度和乘坐舒适性为原则研究设计奖励函数。本文使用近端策略优化算法训练智能体,之后对其进行测试。总体来说,在所有场景中,无人车的完成率在90%以上,碰撞率在5%以下。(3)为解决数据驱动问题,本文将离线强化学习领域的BCQ算法应用到无人驾驶行为决策任务中,首先通过训练采集者采集大量的行驶数据构成数据集,然后BCQ算法利用此数据集训练新智能体。对比采集者和BCQ新智能体,无论是获得的奖励还是碰撞率、完成率,BCQ新智能体都实现了提高,实现了行为决策领域的数据驱动。(4)为解决短视性问题,受Lattice算法的启发,为智能体设计一种混合动作空间,决策时将智能体输出的期望到达的路径点和到达该点时的期望速度作为一种长时间的决策,之后由纯追踪算法控制车辆到达该点并满足速度要求,完成长时间决策的执行。强化学习仍是一种黑盒模型,为保证足够的安全性,本文研究设计了安全控制器,切实避免碰撞的发生。通过与其他算法的对比,验证了算法的有效性。本文提出了一种基于强化学习的分层行为决策框架,并设计了两种不同的动作空间,解决了强化学习在无人驾驶领域存在的场景遍历广度不足等问题,经仿真实验验证,提出的算法能够实现无人车的安全行驶。通过迁移应用BCQ算法实现了行为决策领域的数据驱动,大大提高了数据的利用效率。
其他文献
随着人工智能和计算机技术的不断深入发展,无人驾驶技术在军用和民用领域如日方升。智能车辆的无人驾驶应用场景也从简单的结构化环境逐渐转向森林草原、战场、矿区等非结构化野外环境中。野外环境下的路径规划的研究是推动智能车辆野外无人自主作业的重要环节,路径规划的质量直接影响车辆执行作业任务的效率和成本。分析研究野外环境下的路径规划的现状及使用的规划算法的基础上,结合本次研究的需求和目标,明确以RRT算法作为
在动物产地检疫过程中进行瘦肉精检测,需要采集动物尿液,但大部分动物排尿需要一定条件,为此给瘦肉精检测工作带来了一定困扰。传统采集尿液方法有针对猪的追赶法、针对牛羊的捂口鼻憋尿法等,但效果都不理想,在猪牛羊采集尿液过程中,我们采用了针灸方法对其刺激产生尿液,不仅缩短瘦肉精检测采集尿液所需时间,还可提高采集尿液容量和品质,为实现“瘦肉精”检测快速采集尿液提供参考。
胃肠道间质瘤(Gastrointestinal stromal tumor,GIST)在胃肠道较为常见。对于GIST患者,不能使用常规放化疗,手术切除是其首选治疗手段。因胃肠道间质瘤症状不存在临床特异性,早期难以发现,多数患者确诊时已经到达中晚期,手术无法完全切除病灶。GIST患者中约85%存在c-kit或PDGFRα基因突变,并由此研发出不少靶向治疗药物,为中晚期患者的治疗提供了更多选择,极大地
目前基于观测的锂离子电池温度调节方法对于温度场非观测位置的温控具有较大的迟滞性,为有效解决温度调控不及时所带来的安全问题,本课题采用基于数据-模型混合驱动控制的电池温度调节技术路线,重点优化锂离子电池建模、温度控制等关键技术。提出简化电化学-二维热耦合模型与基于协同粒子群算法的参数辨识方法,结合双自适应扩展卡尔曼滤波算法实现数据-机理模型融合,考察单体建模方法在电池组层级的可拓展性,并提出基于模型
无人车在未知环境中的定位与导航始终是一个重要问题,感知层定位的结果会影响到无人车在规划层以及决策层的进一步规划与控制。视觉惯性里程计凭借摄像头与惯性测量单元良好的天然互补性得到了广泛的关注与研究。然而在长时间和大范围的运动下,视觉惯性里程计依然不可避免的会产生累计误差。本文提出基于视觉标识辅助定位的高精路桩与视觉惯性里程计相结合的方法,实时修正无人车轨迹,并针对无人车在无GPS信号场景下的定位问题
建立农药及其衍生物的快速原位分析方法具有重要意义。安培型乙酰胆碱酯酶(Acetylcholinesterase,ACh E)生物传感器具有反应快、简单、方便、分析成本低等优点,已被证明是一种合理的解决方案。为了构建高性能的ACh E生物传感器,关键是要选择合适的固定化方法和支撑基质,从而保持ACh E的生物活性,同时加速电子转移。本文研制的生物传感器以包埋了ACh E的聚合离子液体(Polymer
梳理了当前河南省“瘦肉精”依法监管的现状和相关法律法规。指出了法律依据不充分、抽检种类窄、抽检机制不完善等主要问题。提出了健全完善法律法规、调整抽检范围、完善监督抽检机制、严打违法违规行为等建议。
在相对于传统的癌症治疗手段中,小分子靶向药物研究意义重大。PI3K/AKT/m TOR是细胞内重要的信号通路之一,在调节细胞增殖、运动、存活、代谢和血管生成过程中起着重要作用。因此,PI3K信号通路被视为开发癌症治疗药物的关键靶点之一。本研究中,通过查阅文献,对噻吩并[3,2-d]嘧啶类PI3K抑制剂进行了总结分析,以GDC-0941为先导化合物,结合计算机辅助药物设计,运用拼合原理、经典的电子等
<正>俗话说,民以食为天,食以安为先。食品安全关系到人民群众身体健康和生命安全,关系到中华民族的未来。习近平总书记指出,食品安全是重大的民生问题,加强食品安全工作,关系到13亿多人的身体健康和生命安全,必须抓得紧而又紧;要始终坚持“最严谨的标准、最严格的监管、最严厉的处罚、最严肃的问责”。近年来,不断出现的“瘦肉精”事件成为我国食品安全领域一个挥之不去的幽灵,“瘦肉精”品种不断翻新,有毒、有害食品
动力电池作为电动汽车的能量源,其安全可靠是电动汽车行业稳步发展的前提。随着硬件算力与数据量的提升,基于数据驱动的电池安全算法逐步取得成效。电池建模及其故障检测作为电池诊断的首要环节,其表现直接决定着电池的安全性,结合数据驱动方法开展的相关研究对于实现电池早期故障提前预警,规避安全事故具有重要意义与价值。本文以锂离子动力电池为研究对象,开展基于数据驱动方法的电池建模及其传感器故障诊断方法研究,取得了