基于边界辅助网络的图像语义分割算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:Tiramisu_smile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像语义分割(Image Semantic Segmentation)一直是计算机视觉中一项基本且具有挑战性的任务,它在许多实际应用中发挥着重要作用,例如机器人技术和医学分割等。近年来,卷积神经网络(Convolutional Neural Networks,CNNs)在语义分割领域中的应用取得了显著进展。例如,基于全卷积神经网络架构(Fully Convolutional Network,FCN)的方法以及基于编解码结构(Encoder-decoder Architecture,EDA)的方法。尽管这些方法在分割任务中取得了一些进步,但均存在对于目标形状和边界的粗略分割问题。然而,对于语义分割任务,不仅要准确识别出图像中各个像素的类别,而且要准确定位其位置,这就要求模型精确识别出每一个类别的轮廓和形状,才能获得一个连续的语义分割预测结果。此外,虽然通过细化物体边界的方式提高了语义分割的精度,但这是以大量的计算资源为代价所取得的进步。基于上述问题,本文主要进行了如下研究:(1)为有效利用边界信息辅助提高语义分割的性能,本文提出了一种双分支对称网络BASNet。它主要有四个部分组成:基于预训练的残差网(Res Net-50/101)加上多孔空间金字塔池化(Atrous Spatial Pyramid Pooling)作为骨干网;语义分割分支(Semantic Segmentation Branch);边界检测分支(Boundary Detection Branch)以及聚合模块(Aggregation Module)。其中,边界检测分支使用一系列空间注意块(Spatial Attention Block,SAB)处理与边界相关的信息。另一方面,语义分割分支中采用了一组全局注意力块(Global Attention Block,GAB),以进一步捕获更准确的对象边界信息和语义信息。最后,BANet通过引入一个聚合模块(AM)来有效融合这两个分支的输出特征,从而提高最终的语义分割性能。综合实验结果表明,BASNet不仅更准确地预测了对象的边界,而且提高了语义分割的性能。(2)通过对上个工作中优缺点的深入研究和分析,本文设计了一种用于语义分割的边界辅助编解码网络(BANet),编码端为基于预训练的残差网(Res Net-50/101),解码端由边界流分支和语义流分支组成。其中语义流分支使用了一系列双向全局注意力模块充分利用了不同阶段的层次特征,分别从水平和垂直的方向来捕获像素间的长距离依赖性;边界流分支通过采用一系列轻量级空间注意力模块不仅可以有效地提取边界信息,而且其模块参数量以及计算复杂度较之先前的工作更加轻量。综合实验对比,BANet在Cityscapes、PASCAL-Context和ADE20K上分别达到了83.8%、55.3%和49.4%的m Io U。此外,由于轻量级空间注意力模块的轻量化设计,相对于一些最新技术,BANet具有更低的GFLOP和更小的模型尺寸。(3)当前,为能够在边缘设备中部署卷积神经网络,不仅需要模型具有低延时的实时处理能力,而且还要求应用其上的图像语义分割算法具有很强的性能。因此,在上述两个工作的基础上,本文提出了一种基于边界辅助的实时语义分割网络(Lite-BANet),通过引入一种极致高效跨阶段非瓶颈残差模块来增强不同阶段下各个尺度感受野的特征表达能力,其中该模块利用Channel Split操作和分解卷积降低模型的参数量,另外,通过对BANet中的两个分支进行部分优化,进一步学习不同尺度下的边界信息和语义信息,从而实现模型精度与速度之间的平衡。实验结果表明,该网络在Cityscapes数据集上达到了76.4%m Io U,FPS达到101.2FPS,很好地实现了精度和速度的平衡。
其他文献
近年来,人工智能的热潮让机器学习再次回归,大量应用在光网络和光通信的各个方面,成为研究的热点。机器学习凭借能够解决耗时的复杂分类或回归问题的优势,被提出作为一个新的思路去评估光路的传输质量,以获得高精度的光路传输质量评估结果。目前,大量研究提出光路传输质量是否达到设定阈值的机器学习分类器,对构建光纤链路传输质量评估器具有启发作用。本文围绕改进机器学习在光纤链路传输质量的评估模型和评估方法,进行了深
学位
世界卫生组织统计并公布的数据显示每年新增约一千万神经系统疾病患者。贫困、营养和医疗资源的缺乏,导致部分发展中国家神经系统疾病正面临严峻的形势。目前常见的神经系统疾病主要有癫痫、阿尔兹海默症、中风、偏头痛、耳鸣、抑郁症和药物成瘾等。经颅电刺激已被证明是一种针对神经系统疾病非侵入式、安全的治疗手段,可以持续作用于一部分患者,改善各类神经系统疾病。部分研究者也进行了经颅电刺激对人类认知系统影响的研究。多
学位
2004年,科研人员成功制备出石墨烯,这激发了研究者对二维材料的研究热情。研究人员不断寻找结构独特且具有优异性质的新颖二维材料。其中,单层磷化硼(BP)是一种性能很好的二维材料,具有类石墨烯结构和较高的稳定性。BP的带隙值随着层数的增加而减小,其能带可以通过堆叠和施加外电场进行调控,单层BP是一种带隙值约为1 e V的半导体材料且具有直接带隙的性质。此外,它还具有极高的载流子迁移率。由于单层BP的
学位
电力系统的安全稳定运行是社会有秩序发展的心脏和动力,促使我国经济稳步快速发展,为人类社会的发展起到了巨大的促进作用。因此,对电力系统领域的研究对社会和国家来说都有重要的价值和意义。本文主要对智能优化算法中粒子群优化算法进行研究,针对其易过早陷入局部最优值和对于某些多维问题难以搜索到最优解的缺陷进行改进,并应用于电力系统经济调度问题。首先,本文对基本粒子群优化算法做了深入的研究,从算法原理、认知分析
学位
随着信息时代的发展,高质量的图像在摄影、航天、生物医学、通信以及资源勘探等方面具有重要应用。然而图像在采集传输过程中易受到设备以及外部环境的干扰,最终得到的往往是降质图像(通常含有噪声、模糊、下采样等),极大地影响了后续分析与应用。作为一类特殊的含乘性噪声的降质图像,由于乘性噪声的高度图像依赖性,使得图像乘性噪声去除变得相当困难和极具挑战性,因此研究更加有效的图像乘性噪声去除方法变得尤为重要。由于
学位
手势识别作为一种自然直观的人机交互方式,用户可以通过手部运动来实现对电子设备的控制。毫米波作为5G无线通信关键技术,可大幅度提高无线网络速率。除了超高速无线传输,毫米波的短波长、大带宽、有向波束等特点,也使得高分辨率、高健壮性的人员手势识别成为可能。为了取得更智能、便捷的人机交互体验,本文基于调频连续波毫米波雷达平台进行了手势分类和识别的研究,具体工作如下:(1)针对微小手指动作、易混淆手势的分类
学位
透明非晶铟镓锌氧(a-IGZO)基薄膜晶体管(TFT)以其具有驱动能力强、光学透过率高、大面积制备均一性好、功耗低等优点,作为核心器件应用于新一代显示驱动技术中。尽管a-IGZO TFT表现出优异的器件性能,但由于a-IGZO沟道材料的晶格结构无序性,在材料中存在高密度的亚带态缺陷,严重影响a-IGZO TFT的器件性能与可靠性。近年来,原位氮掺杂技术被提出抑制a-IGZO TFT器件中亚带态相关
学位
随着智能设备大规模的接入电网,各项网络通信技术与电力的融合也愈加紧密,这将非常有利于智能电网的发展。但机遇与危险并存,信息技术与智能设备的高度融合使得电力侧也将面临更多来自网络的攻击和威胁。其中,由电动汽车和充电桩组合而成的电动汽车充电系统具有负荷量大、网络通信发达等特点,一旦攻击者以此为突破点,实施针对电力系统的网络攻击,导致信息泄露或决策失误,将对经济和社会稳定造成无法预测的损失和不利影响。因
学位
在高比例可再生能源接入电网背景下,发电侧与需求侧的功率不确定性加剧,电力系统调度的灵活性需求激增,系统的安全可靠运行面临巨大的挑战,单独利用发电侧应对负荷变化的方式已难以支撑电网的调节需求。本文利用负荷的可调容量提高电网运行的灵活性,分别从需求响应(Demand Response,DR)与备用角度分析了负荷的可调价值,以此促进新能源消纳;进一步,通过负荷集群的有效聚合以降低系统的整体调控成本,提高
学位
密码学是一门研究如何保密地传递信息的学科。密码学在诞生之初是为了保护军事通信,经过长期的发展,密码学在金融、商业和个人隐私上都起着非常重要的作用。传统密码体制的安全性是基于计算复杂度而设计的,数字签名传统密码体制之一,由于其准确性和安全性,它被广泛应用于金融、邮件等各种通信任务中,但是在算法不断突破以及量子计算机蓬勃发展的当下,这类体制变得不再安全,量子密码学的出现给了人们希望。与传统密码学相比,
学位