【摘 要】
:
图像语义分割技术是计算机视觉领域一项相对基础且具有挑战性的工作,其任务是为图像中每个像素分配相对应的类别标签。现如今,深度卷积神经网络已经成为图像语义分割的主流方法,基于深度神经网络的语义分割算法大多通过堆叠大量卷积层来提高模型分割精度,但面临分割算法参数量大、分割延迟等问题,不适用于实时分割场景。同时,很多实时语义分割算法为追求速度提升,致力于减少网络参数导致分割效果难以达到应用要求。本文基于深
论文部分内容阅读
图像语义分割技术是计算机视觉领域一项相对基础且具有挑战性的工作,其任务是为图像中每个像素分配相对应的类别标签。现如今,深度卷积神经网络已经成为图像语义分割的主流方法,基于深度神经网络的语义分割算法大多通过堆叠大量卷积层来提高模型分割精度,但面临分割算法参数量大、分割延迟等问题,不适用于实时分割场景。同时,很多实时语义分割算法为追求速度提升,致力于减少网络参数导致分割效果难以达到应用要求。本文基于深度语义分割算法Deep Labv3进行优化,主要做了以下几方面的工作:首先,将Deep Labv3模型轻量化。基于Deep Labv3进行优化,首先在编码阶段使用轻量化网络结构Res Net34和Mobile Netv2来降低计算量,然后通过特征金字塔网络增加解码结构以减少空洞金字塔池化网络的参数量,进而大幅减少高分辨率特征图所需的大量的点积运算,从而提升模型整体的分割速度。然后,优化non-local注意力模型使其适用于实时任务,并将其应用于深浅层特征融合阶段。因为浅层特征含有较多位置轮廓信息,但语义信息不明确;深层特征含有较强的语义信息,而缺乏轮廓位置信息;准确的分割需要深浅层信息的结合,一个问题是浅层信息中存在大量分类错误信息。因此,本文在编码器与解码器之间增加适用于实时分割任务的跨级注意力模块,实现更加高效的深浅层特征融合,从而帮助模型更加准确地恢复特征图分辨率。最后,引进多标签损失函数辅助监督训练网络模型。在解码阶段特征图中每个特征点都与图像中多种类别像素点形成映射,直接上采样会损失很多信息导致类别分割模糊。基于此,本文在训练阶段引入多标签分类损失函数辅助监督训练,该损失函数可以使得模型在恢复特征图分辨率过程中学习到一对多的映射关系,从而使得模型可以更加精确地恢复特征图分辨率。本文提出一种基于跨级注意力机制和多标签分类的实时语义分割模型。在Cityscapes数据集和Cam Vid数据集上进行了实验,该算法的分割精度在两个数据集上分别达到了67.8%和65.9%,分割速度分别为42帧/s和55帧/s,在实时性与准确性之间达到较好的平衡,达到实时语义分割算法要求。总体而言,本文算法在实时语义分割算法中取得了较好的精度,分割效率也能够达到实时分割要求。
其他文献
因比特币表现出的稳定性和可靠性,具有去中心化、防篡改等技术特性的区块链技术被揭示,并立即得到高度重视。区块链本质上是一个分布式账本,类似分布式数据库,但又有根本区别:去中心化的运行模式。随着区块链应用从数字货币、溯源等迅速扩展到各个领域,已有技术支撑的早期区块链技术方案的容量局限性问题越来越明显,区块链核心技术亟待创新与突破,特别是以公链吞吐量大幅提升和时延降低为代表。现有的扩容技术中,分片技术被
在工业界产品用户体验设计实践中,用户人群划分是一个重要环节。传统的用户人群划分方法存在数据客观性不足、数据分析耗时费力以及过度依赖用户体验工程师主观判断等问题,影响了人群划分的质量。上述传统用户人群划分方法中存在的问题如何借助目前快速发展的用户数据采集工具来加以解决,是一个值得探索的课题。本文针对上述存在问题,选择了游戏、购物两个具有代表性的应用领域,针对每个领域采用迭代方式进行了两轮案例研究,在
随着监控设备的普及,作为智能安保、目标追踪等任务的重要辅助手段,行人重识别近年来被广泛研究。然而行人重识别任务在提取身份相关特征时存在的信息丢失问题会使得行人身份信息提取不够充分,进而影响行人重识别模型的准确度。基于局部特征的行人重识别方法能保留更多的局部重要特征,对遮挡问题也有较好的效果,但应对下采样导致的信息丢失问题存在不足。结合不同分辨率特征的方法在检测和分割任务中已广泛使用且被证明对下采样
微颗粒存在于生活中的各个领域,在海洋生态领域中,微塑料会严重威胁海洋中生物和人类的生命健康。在船舶运输领域中船舶压载水携带的微藻细胞会严重影响当地的水域生态系统,因此微颗粒的检测对人类的生命健康和海洋生态系统平衡都具有非常重要的意义,而传统的微颗粒检测设备由于其操作复杂、体积较大、价格昂贵等因素不适合对微颗粒的快速检测,因而研发一套便携、高效的微颗粒检测设备具有十分重要的意义。本文提出了一种基于多
在这个网络资源膨胀的时代,网络上的数据呈现出数据量大、表达多样和价值密度低等特征,数据的歧义性影响人们对于信息的辨别和理解。为了解决实体的语义歧义问题,实体链接技术被提出,其目标是根据文档中指称的上下文语义信息,链接一个文档的指称到一个知识库的相应实体。为了提高链接的准确率,实体链接方法需要同时考虑指称和候选实体之间的局部兼容性以及与文档中其它实体之间的一致性。本文针对当前大多数实体链接方法在获取
在移动互联网和大数据迅速发展的时代,海量数据都是以自然语言的形式进行存储,这些数据蕴含着巨大的价值,但同时又存在大量歧义性。词义消歧可增强计算机使用和理解自然语言的能力,在机器翻译、文本分类、信息检索等领域应用越来越广泛。词义消歧已经演变成自然语言处理中亟待解决的重要课题。本文针对在整合词典知识的神经网络词义消歧模型中,存在忽略歧义词上下文和词义定义间层级交互作用的问题,构建基于混合神经网络的多粒
图像配准在许多计算机视觉任务中起着重要的作用,例如海冰漂移跟踪等研究。但是图像受光照或成像条件等因素的影响,会产生一定的非线性变化灰度差异。例如遥感图像间由于数据来源、极化方式、分辨率等存在较大差异,使得待配准图像具有不同程度的非线性变化灰度差异。甚至于在不同光谱、不同波段的遥感图像中出现局部反色的情况。这种灰度差异往往呈现非线性变化,导致提取的同位置特征不能有效的进行匹配。针对非线性变化灰度差异
为了辅助解决人口老龄化带来的人力不足问题,智能家居中的老年人日常行为识别系统应运而生。研究者通过在老年人的居住环境中部署相关传感器,获取其日常活动——比如睡觉、吃饭、吃药等信息,并利用行为识别知识处理这些信息,识别老年人日常行为,及时发现老年人日常行为中的异常。近年来,研究者们在智能家居日常行为识别领域取得了一定的成绩,但是还存在一些问题:(1)以往的研究方法大多统计传感器出现的频次,把频次进行相
强化学习是人工智能研究领域中一个热门的方向,被广泛应用在机器人控制,人机交互等领域。深度强化学习将深度神经网络与强化学习相结合,在原有的强化学习方法上对智能体以及环境的预输入做特征提取。Actor-Critic算法作为深度强化学习的一个经典算法,在解决连续空间的问题上有着良好的表现。但是传统的Actor-Critic算法中Critic网络使用的是单一的Q-learning输出序列,智能体状态和动作
随着近年来互联网数据的海量增长以及人工智能的发展,知识图谱以强大的语义处理能力和数据互联能力为数据提供了一种新的表达、组织管理和挖掘方式。但是,构建数据嘈杂和信息抽取过程不确定,导致现有知识图谱通常存在缺失现象,因此推理知识图谱以补全具有重要研究意义。知识表示学习,作为知识图谱推理的常用手段,基于潜在特征,在计算效率上具有明显优势,但学习过程仅利用三元组信息,嵌入结果对样本数量和质量有一定依赖,稀