【摘 要】
:
语义分割是一种细粒度的场景理解任务,在自动驾驶、计算影像等众多应用中起着至关重要的作用。随着深度学习的发展,基于深度模型的语义分割算法也取得了重大的进步。但是由于语义分割需要像素级别的精确标注,相较于分类模型极大地提升了标注的难度和成本,也限制了语义分割任务在新场景的应用和扩展。为此,本文探究在弱监督情况下,即如何在降低数据标注的数量或者质量的情况下,保证分割模型的效果。针对语义分割任务中图像标注
论文部分内容阅读
语义分割是一种细粒度的场景理解任务,在自动驾驶、计算影像等众多应用中起着至关重要的作用。随着深度学习的发展,基于深度模型的语义分割算法也取得了重大的进步。但是由于语义分割需要像素级别的精确标注,相较于分类模型极大地提升了标注的难度和成本,也限制了语义分割任务在新场景的应用和扩展。为此,本文探究在弱监督情况下,即如何在降低数据标注的数量或者质量的情况下,保证分割模型的效果。针对语义分割任务中图像标注不精确的情况,本文提出协同语义分割网络(Collaborative Segmentation Network,CSS)的方法,将协同学习的思想应用到图像级别标签的弱监督语义分割任务上。CSS由一个定位子网络和一个分割子网络组成,两个结构和特性不同的子网络统一联合训练,互相增强。在训练过程中,定位子网络使用图像级别的标签作为监督,并生成注意力图。对于分割子网络,由于没有精细标签监督,本文将分割子网络和定位子网络的伪掩码混合起来作为分割子网络的监督。由于两个子网络的结构和监督信息不同,来自定位子网络的伪掩码可以提供物体粗略的位置信息,而来自分割子网络的伪掩码可以提供物体形状信息。考虑到模型训练的初始阶段,分割子网络的预测不如定位子网络的预测准确,本文设计了一种动态掩码混合策略,该策略可以动态的提高伪掩码中来自分割子网络的比例。此外,这两个子网网络之间进行底层网络的共享,从而互相增强。本文分别使用VGG16和Res Net101作为骨干网络,在语义分割基准数据集PASCAL VOC 2012进行了实验,在验证集和测试集分别达到65.7%和65.8%的m Io U,取得了当前图像级别标签语义分割最好水平。针对语义分割任务中图像标注不完全的情况,本文提出一种基于高阶一致性正则化的半监督语义分割算法(High-Order Consistency Regularization Based Semi-Supervised Segmentation,HCRSS),将一致性正则化的思想应用到半监督图像语义分割任务上。通过约束分割网络对于无标签样本在不同扰动下的一致性,达到利用无标签样本数据分布的目的。首先,将基于图片块的扰动Cut Mix应用到半监督语义分割任务上,为语义分割任务提供了一种高效的扰动方式。在此基础之上,本文针对像素间互有关联这一特点提出使用对抗学习的方式,通过设计一个判别网络去判断分割网络结果的真实程度,强迫分割网络在扰动后能够产生更加真实的预测,从而约束了扰动前后预测结果间的高阶一致性。在Cam Vid数据集上的实验结果表明,在使用不同比例有标签数据的前提下,通过使用额外的无标签数据,本文的算法较监督学习算法都能有1.3%到2.9%的提高。在仅使用一半标签的情况下,本文算法在验证和测试集分别达到72.18%和62.42%,接近甚至超过基线算法在使用全部标签时的性能。
其他文献
区块链技术是一种新型的去中心化账本技术,它可以在没有可信第三方参与的情况下,在多个互不信任的参与方之间构建全局的信任。由于其独特的数据结构设计,区块链上的交易信息具有完整性及不可篡改性。区块链技术在金融服务、物联网、征信管理等领域都有广泛的应用场景。共识机制是区块链的核心技术,系统中的共识节点通过共识机制来共同维护全局的账本。工作量证明(Po W,Proof of Work)类共识机制应用最为广泛
随着“智慧城市”的建设快速发展,近年来我国城市建设和信息化的应用技术水平不断提高,物联网产生的信息量不断增加,如何更快更有效地分配和处理信息是当前一个非常重要的问题。从这个意义上说,信息中心网络(ICN)正是为了满足日益增长的对高效率内容分发的需求而设计的。不同于典型的基于IP的请求机制,物联网中生成的信息可以被视为内容,将物联网内容与名称相关联使用户能够直接请求他们真正想要的内容,此外ICN特有
近年来,深度神经网络在二维图像领域的应用取得了很大的成功,随着三维传感器的普及,机器人可以直接通过深度相机获取深度数据,如何利用三维信息去提升机器人的感知能力也成为了计算机视觉领域的一大热点,本文主要针对机器抓取任务,利用三维信息实现对物体的识别和姿态估计。本文研究物体的机器抓取中的两个核心感知算法,包含三维识别和姿态估计,其中姿态估计是基于标准模型的相对姿态估计。抓取过程中首先需要知道物体的位置
图像属性转换是一项新兴的图像处理技术,其任务是根据使用者需求,对图像中的一种或多种属性进行相应转换,同时保证生成图像的高质量、真实度和多样性。图像属性转换技术的应用十分广泛,涉及电影制片、照片编辑、电子商务等众多行业,也因此成为了当今计算机视觉领域的热门研究课题。早些年间,图像属性转换的主要形式为神经风格迁移,依靠卷积神经网络进行学习。由于传统卷积神经网络需要设立明确的训练目标,所以无法适用于其他
360度视频的高精度和全景特性既给用户带来了沉浸式体验,也使其在现有网络中传输面临巨大的挑战。这种挑战性表现在传输整个360度视频会占用大量的带宽资源,容易引起网络拥堵和造成传输延迟。事实上,当用户佩戴头戴式显示设备观看360度视频时,同一时刻仅能看到一部分视频区域。因此,结合Tiling技术和自适应流传输技术,将360度视频在时间和空间上切片,以Tile粒度传输视频可以节约大量带宽资源。另一方面
视频中的行为识别一直以来都是计算机视觉社区中最热门并且悬而未决的问题之一。行为识别不仅能够直接运用在智能监控,无人驾驶,人机交互等多个领域,并且是许多其他视频研究任务的基础。随着深度学习技术的发展,行为识别这一领域涌现了许多基于深度神经网络的新算法。主流的方法大体上分为3D卷积,双流,循环神经网络三个家族。依靠这些方法,视频的时空特征能够被有效地挖掘和运用。这些模型能够在UCF101,HMDB51
深层页岩气储层岩石组构复杂、非均质性强,基于矿物含量三端元的岩相分类无法精细反映其非均质性变化。利用X射线衍射、物性、薄片、地球化学以及测井等资料,对川南泸州地区五峰组—龙马溪组深层页岩地层开展了以“氧化还原+TOC含量+矿物组分”三重信息为基础的微相细分,分析了不同测井曲线对微相细分类型的敏感性,并采用基于K-means的贝叶斯判别法建立了微相细分类型的测井精细识别方法。结果表明:(1)研究区页
转移肿瘤是指癌症从身体的一个部位扩散到了另一个部位,大约三分之二的癌症患者都会患有骨转移肿瘤,而脊柱是骨转移肿瘤最常见的发病部位,脊柱转移肿瘤可能会引起病人疼痛、脊椎不稳定和神经损伤。因此,脊柱转移肿瘤的早期检测对于疾病的精准分期、改善患者的预后以及最佳治疗方案的选择至关重要。在脊柱转移肿瘤的临床诊疗中,脊椎的检测分割以及骨质质量的诊断分类是两个非常重要的问题。本文针对这两个问题,基于深度学习的方
随着科技的发展,学者的数量也迅速增长,由于学者之间交流频繁,而且学者个人信息在许多领域都有应用,因此如何准确快速地获取学者信息变得非常重要。Acemap作为一个学术大数据平台,目前数据库中还缺少相关学者信息的数据。本文从Acemap的实际情况出发,对使用计算机方法自动从互联网中获取学者信息进行了研究。本文将该过程分成三大部分,分别是网络数据采集、学者主页判别和学者主页信息抽取,对每一部分分别进行了