【摘 要】
:
本文中提出了一种基于模仿学习和强化学习的智能车辆换道行为决策方法。其中宏观决策模块通过模仿学习构建极端梯度提升模型,根据输入信息在车道保持、左换道和右换道中选择
【机 构】
:
湖南大学汽车车身先进设计与制造国家重点实验室
【基金项目】
:
国家自然科学基金(51975194);国家自然科学基金青年科学基金(51905161)资助
论文部分内容阅读
本文中提出了一种基于模仿学习和强化学习的智能车辆换道行为决策方法。其中宏观决策模块通过模仿学习构建极端梯度提升模型,根据输入信息在车道保持、左换道和右换道中选择宏观决策指令,以此确定所需求解的换道行为决策子问题;各细化决策子模块通过深度确定性策略梯度强化学习方法得到优化策略,求解相应换道行为决策子问题,以确定车辆运动目标位置并下发执行。仿真结果表明:本文中提出方法的策略学习速度比单纯强化学习方法快,且其综合性能优于有限状态机、行为克隆模仿学习和单纯强化学习等方法。
其他文献
目的:探讨NF-κB p65反义寡核苷酸对实验性结肠炎BALB/c小鼠肠黏膜NF-κB表达的抑制作用和对黏膜肿瘤坏死因子(TNF-α)、白细胞介素(IL-10、IL-1β)表达的影响,研究其对肠道炎症的
目的研制肿瘤患者全肠外营养(TPN)管理软件,方便临床医生对肿瘤患者快速、准确的制订TPN治疗方案,并对治疗效果有效监测.方法采用Delphi 4.0为编程语言在Windows 98平台上开
近日,太康县人大常委会组织常委会委员和部分县人大代表深入县一高新校区、万城金街、正邦水刺无纺布、经研银海种子加工、新农农贸城等“双十五工程”和十件实事现场视察项目
电子元器件的失效是引发电路或系统故障的主要因素,虽然电子元器件的失效模式多种多样,但它们的失效周期却是一定的规律性。可靠性指标是电子元器件的重要质量指标之一,是电
吕凤子先生一生致力于“教书、作画、办学校”。40年办学中,“三办正则”的意义广泛而深远。它不仅开创了中国女子职业教育之历史先河,树起了反封建、反礼教的革命旗帜,倡导了团
目的探讨子宫腺肌症的发病因素与诊治方法.方法对228例子宫腺肌症临床资料进行回顾性分析.结果人流史占57%,妊娠3次以上占67.5%.B超诊断率42.5%.对于简单的子宫腺肌症,腹腔镜
我科自2000年1月~2006年1月使用24号气囊导尿管经回盲瓣行回肠插管造口,以预防低位直肠癌前切除术后吻合口漏, 25例中无1例术后出现吻合口漏,效果满意,报告如下.
为了适应新形势的发展,我们必须不断寻求医院思想政治工作与医院实际工作的最佳契合点.一是突出重点.抓舆论导向,为医院工作提供强有力的思想政治保证.并把思想政治工作渗透
作为一个综合医院的院长,经过多年的工作经验及借鉴现代医院管理的理论实践,我认为,要当好一个院长,必须做好以下各方面的工作:
目的研究转化生长因子β1(TGF-β1)mRNA在胃癌组织中的表达及其临床意义.方法采用RT-PCR结合斑点印迹法检测胃癌组织、癌旁组织、肠化生组织和正常对照组织中的TGF-β1mRNA水