基于深度强化学习的沿海船舶航线规划研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:sunwen_fly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着海上运输业的快速发展,我国沿海已成为水上交通最繁忙的区域之一。沿海区域交通密度的不断增大对船舶航行安全提出了更高要求。航线规划作为船舶安全航行的基础和前提,在航运业中起着关键作用。现有的沿海船舶航线规划方法较少考虑实际航行规范和避碰规则,导致规划出的航线无法很好地应用于实际环境。综合考虑船舶航行的安全性、经济性与时效性等因素,对沿海船舶航线规划方法进行深入研究,有助于提高沿海船舶航线规划的整体水平和质量,对于船舶朝着智能化、体系化和无人化的方向发展具有重要的现实意义。本文在对沿海船舶航线规划的研究现状进行分析总结的基础上,提出了一个基于深度强化学习的沿海船舶航线规划框架,重点研究了全局航线规划方法和局部航线规划方法。首先,对于全局航线规划,提出了一种基于深度Q学习奖励函数优化的沿海船舶全局航线规划模型。以航线规划的安全性和经济性为目标,设计了船舶状态空间、动作空间以及动作探索策略,同时对其奖励函数进行优化设计,通过增加目标点势能奖赏、奖励域和惩罚域,提高了模型的收敛速度与学习效率。其次,对于局部航线规划,提出了一种基于改进深度确定性策略梯度算法的沿海船舶局部航线规划模型。以安全性和时效性为目标,将避碰策略与该算法相结合,并重新设计奖励函数以满足航行规范。针对算法在初始阶段的盲目探索问题,给出了融合人工势场法的APF-DDPG算法,以提高模型的收敛速度与稳定性。最后,结合相关评价指标,将本文提出的全局航线规划模型和局部航线规划模型分别与其他相关方法进行了实验验证与对比分析。实验结果表明,本文模型规划出的航线能够较好地满足航行规范和评价指标,并且在收敛速度和学习效率等方面具有明显优势。
其他文献
随着监控设备的普及,作为智能安保、目标追踪等任务的重要辅助手段,行人重识别近年来被广泛研究。然而行人重识别任务在提取身份相关特征时存在的信息丢失问题会使得行人身份信息提取不够充分,进而影响行人重识别模型的准确度。基于局部特征的行人重识别方法能保留更多的局部重要特征,对遮挡问题也有较好的效果,但应对下采样导致的信息丢失问题存在不足。结合不同分辨率特征的方法在检测和分割任务中已广泛使用且被证明对下采样
学位
微颗粒存在于生活中的各个领域,在海洋生态领域中,微塑料会严重威胁海洋中生物和人类的生命健康。在船舶运输领域中船舶压载水携带的微藻细胞会严重影响当地的水域生态系统,因此微颗粒的检测对人类的生命健康和海洋生态系统平衡都具有非常重要的意义,而传统的微颗粒检测设备由于其操作复杂、体积较大、价格昂贵等因素不适合对微颗粒的快速检测,因而研发一套便携、高效的微颗粒检测设备具有十分重要的意义。本文提出了一种基于多
学位
在这个网络资源膨胀的时代,网络上的数据呈现出数据量大、表达多样和价值密度低等特征,数据的歧义性影响人们对于信息的辨别和理解。为了解决实体的语义歧义问题,实体链接技术被提出,其目标是根据文档中指称的上下文语义信息,链接一个文档的指称到一个知识库的相应实体。为了提高链接的准确率,实体链接方法需要同时考虑指称和候选实体之间的局部兼容性以及与文档中其它实体之间的一致性。本文针对当前大多数实体链接方法在获取
学位
在移动互联网和大数据迅速发展的时代,海量数据都是以自然语言的形式进行存储,这些数据蕴含着巨大的价值,但同时又存在大量歧义性。词义消歧可增强计算机使用和理解自然语言的能力,在机器翻译、文本分类、信息检索等领域应用越来越广泛。词义消歧已经演变成自然语言处理中亟待解决的重要课题。本文针对在整合词典知识的神经网络词义消歧模型中,存在忽略歧义词上下文和词义定义间层级交互作用的问题,构建基于混合神经网络的多粒
学位
图像配准在许多计算机视觉任务中起着重要的作用,例如海冰漂移跟踪等研究。但是图像受光照或成像条件等因素的影响,会产生一定的非线性变化灰度差异。例如遥感图像间由于数据来源、极化方式、分辨率等存在较大差异,使得待配准图像具有不同程度的非线性变化灰度差异。甚至于在不同光谱、不同波段的遥感图像中出现局部反色的情况。这种灰度差异往往呈现非线性变化,导致提取的同位置特征不能有效的进行匹配。针对非线性变化灰度差异
学位
为了辅助解决人口老龄化带来的人力不足问题,智能家居中的老年人日常行为识别系统应运而生。研究者通过在老年人的居住环境中部署相关传感器,获取其日常活动——比如睡觉、吃饭、吃药等信息,并利用行为识别知识处理这些信息,识别老年人日常行为,及时发现老年人日常行为中的异常。近年来,研究者们在智能家居日常行为识别领域取得了一定的成绩,但是还存在一些问题:(1)以往的研究方法大多统计传感器出现的频次,把频次进行相
学位
强化学习是人工智能研究领域中一个热门的方向,被广泛应用在机器人控制,人机交互等领域。深度强化学习将深度神经网络与强化学习相结合,在原有的强化学习方法上对智能体以及环境的预输入做特征提取。Actor-Critic算法作为深度强化学习的一个经典算法,在解决连续空间的问题上有着良好的表现。但是传统的Actor-Critic算法中Critic网络使用的是单一的Q-learning输出序列,智能体状态和动作
学位
随着近年来互联网数据的海量增长以及人工智能的发展,知识图谱以强大的语义处理能力和数据互联能力为数据提供了一种新的表达、组织管理和挖掘方式。但是,构建数据嘈杂和信息抽取过程不确定,导致现有知识图谱通常存在缺失现象,因此推理知识图谱以补全具有重要研究意义。知识表示学习,作为知识图谱推理的常用手段,基于潜在特征,在计算效率上具有明显优势,但学习过程仅利用三元组信息,嵌入结果对样本数量和质量有一定依赖,稀
学位
图像语义分割技术是计算机视觉领域一项相对基础且具有挑战性的工作,其任务是为图像中每个像素分配相对应的类别标签。现如今,深度卷积神经网络已经成为图像语义分割的主流方法,基于深度神经网络的语义分割算法大多通过堆叠大量卷积层来提高模型分割精度,但面临分割算法参数量大、分割延迟等问题,不适用于实时分割场景。同时,很多实时语义分割算法为追求速度提升,致力于减少网络参数导致分割效果难以达到应用要求。本文基于深
学位
交通拥堵是大多数城市都存在的问题,自适应交通信号控制是减缓交通拥堵最有效的方式之一。自适应交通信号控制问题(ATSC)可以被建模为城市交叉口之间的多智能体合作博弈,其中交叉口相互合作以优化城市的交通状况。近年来,强化学习(RL)在处理序列决策问题上取得了显著的成就,可以很好的应用于ATSC中。因此,本文将多智能体强化学习应用于交通信号控制问题优化车辆的旅行时间。首先,真实交通控制环境中,交叉口的观
学位