基于多目标深度增强学习的无人驾驶船舶行为决策

来源 :大连海事大学 | 被引量 : 0次 | 上传用户：xiao0mai

【摘要】

：

【作者】

：

王程博

【出处】

：

大连海事大学

【发表日期】

：

2019年01期

【关键词】

：

深度增强学习航行态势理解行为决策无人驾驶船舶不确定环境

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本研究关注的是不确定环境下无人驾驶船舶的自适应航行问题。为解决无人驾驶船舶的自主航行行为决策,提出了一种基于深度增强学习的无人驾驶船舶行为决策模型。该模型主要航行态势理解层和驾驶行为决策层,航行态势理解层主要是结合海上避碰规则对子场景进行量化建模,驾驶行为决策层是学习被量化的子场景中的环境状态以训练驾驶策略。采用deep Q-learning分别就环境模型、船舶动作空间、激励函数和搜索策略设计了基于马尔科夫决策过程的驾驶行为决策算法以实现无人驾驶船舶的智能避障与自主航行;最后,基于Python和Pygame设计了深度增强学习(Deep Reinforcement Learning,DRL)和引入人工势场(Artificial potential field,APF)改进深度增强学习(APF-DRL)算法的两组验证实验,分别从收敛趋势、迭代路径和避碰效果等方面分析实验数据。实验结果表明APF-DRL算法能更好地安全避让障碍物和决策驾驶行为,进一步表明了本文设计的算法的有效性和适用性。本研究的创新性成果如下:(1)应用本体论,从实体类与属性两方面对多源异构信息进行分析梳理,设计无人驾驶船舶航行态势本体概念模型进行航行态势理解建模,结合国际海上避碰规则对划分的场景进行量化处理,并建立用于避碰决策Prolog规则库。(2)设计无人驾驶船舶多目标增强学习行为决策算法。其中,具体设计了离散化的无人驾驶船舶行为决策空间、由安全避障及接近目标点组成的激励函数、行为选择策略、状态值函数等要素,实现了不确定环境下无人驾驶船舶航行行为决策。(3)引入APF的引力场概念,设计了 APF-DRL行为决策算法以改进基于DRL的行为决策算法迭代速度慢及易陷入局部迭代等问题。

其他文献

NELL-1与BMP2联合应用在大鼠牙髄损伤修复中的体内研究

目的:Nel-like分子-1(NELL-1)是一种新型生长因子,可诱导成骨细胞的分化和骨再生。近期有研究表明,NELL-1蛋白可协同增加骨形成蛋白-2(BMP2)的骨形成及骨诱导作用,并抑制由BM

学位

NELL-1蛋白骨形成蛋白-2牙髓再生修复性牙本质炎症细胞反应

浅谈当代漆画内容和媒材的多元性发展

中国是多民族聚集的国家,民族特色浓郁和地异风貌的独特,组合成了独一无二的特色人文景观现象。艺术家们在广阔的祖国大地上寻找漆画创作题材,可谓题材创作取之不尽。当今漆

学位

漆画多元化题材表现绘画语言

健康导向下的西安适老性城市公共空间设计研究

随着人口老龄化趋势日益严峻,中国作为一个发展中国家,未富先老无疑增加了解决老龄化问题的难度。单纯依靠社会和机构养老目前很难满足现实需求,倡导老年人建立积极的生活方、做好自我保健、主动预防疾病更为重要。城市公共空间因其良好的生态环境、丰富的活动设施,而成为老年群体进行社会交往以及休闲活动的重要场合,因此提供健康的适合老年人参与的城市活动空间,具有迫切的现实意义。本文以健康理论为导向,反思城市公共空间

学位

健康城市老龄化适老性西安城市公共空间

西太平洋台风影响福建近海海区的风场分布特点及数值研究

本文利用NCEP全球1°×1°FNL分析资料,归类研究2000—2005年内21例西太平洋西行台风在影响福建近海海区时,其风场分布特点。选取0313台风“杜鹃”和0513台风“泰利”,使

学位

台风风场MM5阻挡入流角地形诱生低压效应

全球可再生能源的资源和环境代价及其驱动因素分析

近年来,开发可再生能源已成为诸国能源发展战略的重要组成部分,而利用可再生能源发电的过程中存在不可忽视的资源和环境代价。如生物质燃料会消耗大量水资源,引起水土流失。从生产角度看,可再生能源具有低排放等优点,但从消费角度,可再生能源的开发和利用从供应链视角来看会引起直接/间接的资源消耗和污染物排放,亟待研究。目前基于消费角度的可再生能源部门引起的环境排放和资源消耗量研究较为缺乏,对于其驱动因素的研究也

会议

可再生能源多区域投入产出模型结构分解模型体现生态要素驱动因素

基于多目标深度增强学习的无人驾驶船舶行为决策

其他学术论文