【摘 要】
:
近年来,作为计算机视觉领域一个具有挑战性的研究课题——图像语义分割,在自动驾驶、医疗影像分析、无人机落点判定以及航天卫星遥感等现实场景中发挥了至关重要的作用。受益于深度学习中卷积神经网络在图像处理领域的巨大成功,目前的语义分割任务在性能方面取得了显著提升。然而,大多数语义分割方法只是通过不断增加模型复杂度来提高分割效果,却忽略了硬件资源内存、显存消耗和推理延迟等问题。针对以上问题,本文基于深度卷积
论文部分内容阅读
近年来,作为计算机视觉领域一个具有挑战性的研究课题——图像语义分割,在自动驾驶、医疗影像分析、无人机落点判定以及航天卫星遥感等现实场景中发挥了至关重要的作用。受益于深度学习中卷积神经网络在图像处理领域的巨大成功,目前的语义分割任务在性能方面取得了显著提升。然而,大多数语义分割方法只是通过不断增加模型复杂度来提高分割效果,却忽略了硬件资源内存、显存消耗和推理延迟等问题。针对以上问题,本文基于深度卷积神经网络,提出了轻量级实时语义分割模型兼顾算法精度、推理速度和内存占比,具体研究内容如下:(1)本文设计了一种基于多尺度上下文融合方案的新型轻量级网络(MSCFNet),探索了一种非对称的编码器-解码器架构。在编码器部分采用了由分解卷积、深度可分离卷积和空洞卷积组成的有效的非对称残差卷积模块,并且在三次降采样之后,利用原图信息进行相应尺度细节信息补充;同时,利用网络不同阶段的注意力分支来捕获多尺度的上下文信息,并在解码部分融合它们以提高图像特征的表达。MSCFNet在Cityscapes数据集上实现了71.9%m Io U的精度,并且可以在一个Titan XP GPU配置上以超过50FPS的前向推理速度运行;在Cam Vid数据集上实现69.3%m Io U的精度,很好地实现了分割效率和分割精度之间的平衡。(2)针对图像语义分割在编码部分下采样会丢失信息这一问题,本文提出了一种快速双边对称网络FBSNet。具体来说,FBSNet采用了具有两个分支的对称编码器-解码器结构,分别是语义信息分支和空间细节分支。语义信息分支是具有深度网络结构的主要分支,用来获取输入图像丰富的上下文信息以及获得足够的感受野;空间细节分支是浅而简单的网络,用于建立每个像素之间的局部依赖关系以保存细节。同时,设计了一个特征聚合模块,以有效地结合这两个分支的输出特征。在一张RTX2080Ti GPU配置上进行测试,在Cityscapes数据集上以每秒90帧的推理速度达到70.9%m Io U的分割精度,在Cam Vid数据集上以每秒120帧的推理速度达到68.9%的分割精度,且整体模型大小只有0.62M,计算复杂度只有9.7G,是这一种硬件资源受限条件下的高效分割方法。(3)利用Transformer不拘束于局部信息之间的权值配比关系,而是着眼全局的相互依赖这一特性,将卷积神经网络CNN与Transformer相结合,提出了一种基于卷积神经网络编码解码结构的网络(LETNet)。首先利用编码器对输入的图像进行特征提取,然后将特征图进行重塑切割变为一维序列输入到高效的Transformer进行全局特征建模。解码部分负责恢复到初始的分辨率进行逐像素点的分类预测最终形成分割图。LETNet仅在一张RTX3090 GPU的硬件基础、整体只有0.91M参数量以及12.6G计算复杂度的条件下,在Cityscapes数据集上取得了71.6%的分割结果,在Cam Vid数据集上更是取得了70.5%的显著表现。该方法充分证明了卷积神经网络CNN与Transformer结合之后在实时语义分割领域的有效性。综上,本文针对实时语义分割问题提出了三种有效的网络,结合了卷积神经网络与Transformer,以解决实际问题为出发点,结合空洞卷积、深度可分离卷积、注意力机制等在分割精度、模型大小和推理速度取得了更好的平衡,并且通过实验证明,本文提出的方法取得了预期的效果,具备了部署到实际场景应用的能力。
其他文献
2010年以来,随着国内运营商“云计算”市场的迅速发展,其中构建“云计算”硬件基础设施中的最小计算单元的X86架构的工业标准化服务器需求也在快速增长。作为全球X86构架的工业标准化服务器领先企业HPE,在运营商市场占有率与产品利润率不仅未能保持增长,反而出现持续下滑现象。本文通过分析HPE工业标准化服务器产品在运营商市场中“市场占有率”与“利润率”无法同时兼顾的两难困境,基于运营商运营压力向大宗商
由于缺乏大量标记样本,小样本学习的核心问题是在新任务上有严重的过拟合问题。自监督学习能够从数据本身中挖掘出强有力的监督信号,最终提升模型的泛化能力。因此,单个旋转自监督任务已经被整合到小样本学习网络中缓和过拟合问题。由于每一个任务损失函数的收敛速度和量级可能存在差异,在训练过程中,整个网络可能被某一个任务交替主导,这对主任务的性能有负面影响,因此本文首先设计一个带有辅助任务的学习速率均衡化网络结构
作为无线电能传输领域一项新兴技术,磁耦合谐振式无线电能传输(MCR-WPT)技术具有传输效率高、输出功率大等特点。然而,在日常应用中,MCR-WPT也存在着较多的痛点。例如,在充电过程中,由于传输距离等因素的变化导致系统最大效率点或最大功率点发生偏移,从而导致系统的传输效率或输出功率的下降。因此,如何避免无线电能传输系统最大效率点或最大功率点发生偏移,实现无线电能系统的传输效率或输出功率稳定输出,
近年来,技术的不断发展使得我们可以在智能手机、可穿戴设备等上推出智能应用,并将它们集成到物联网中。这些应用程序通常依赖于各种传感器节点来从多维度捕获和生成大量的数据,从而高精度地检测、识别和分类目标。然而无线传感器节点只配备有限的电源,即使可以通过采用不同的传输策略、节点部署策略以及非均匀成簇算法等来均衡全网节点能耗,仍然可能无法满足大规模网络长期稳定运行的需求。随着研究的进步,无线可充电传感器网
随着互联网与医疗行业的快速发展,市场上各种新型药品层出不穷,并通过网上药店进行售卖,这其中也包含不少假药,假药问题成为了当前需要解决的重点问题。建立完善的药品追溯系统是解决目前药品安全监管问题的一条有效途径。然而,这其中依然存在一些问题。一方面,现有的药品追溯平台方案大部分都是各药企自建的中心化追溯系统,不利于药监局的统一管理;同时,中心化的数据存储依然会存在药企厂家或平台为逃避责任私下篡改药品数
如今慈善捐赠有了多种多样的线上活动,在受到人们关注的同时,也面临着信任危机。传统的捐赠活动需要依赖慈善平台或慈善机构的中心化管理,这种服务方式存在以下不足:其一是求助信息由慈善机构集中管理,存在求助难辨真假的问题。其二是捐赠信息同样由慈善机构集中管理,存在捐赠信息以及捐赠流向不透明等问题。因此如何保证慈善捐赠过程中的求助信息和捐赠信息可信是目前需要解决的问题。区块链技术的去中心化和不可篡改等特征为
随着国内经济飞速发展,中小企业的业务规模不断壮大,各企业对于网络的需求也越来越高,愈发需要个性化、高质量的网络环境,同时国家政策持续要求面向中小企业提速降费。因此运营商急需针对各类政企客户提供高品质低成本的专线,提升在商务楼宇等价值区域的专线产品竞争力。在投资金额有限的情况下,运营商需要对品质To B网络的基础机房进行精准建设,确保把有限的投资用到最需要的地方,提升网络接入能力效率。本文在分析运营
当前全球人口数不断增加,引起能源需求量日益巨增,在可再生能源发展迅速的背景下,本文研究智能电网能量管理问题。由于国内外专家学者大多数都只关注智能电网的经济调度问题,或者发电侧大多都只考虑二次函数形式的代价函数,此外智能电网集中式的能量管理存在着大量的弊端以及智能电网中节点间的通信负担过重。因此,针对现有文献的研究不足之处,本文同时考虑发电侧和负荷侧的利润函数,将发电侧的代价函数建立成具有阀点效应的
脑卒中是一种临床常见的急性脑血管疾病,其后遗症会导致患者丧失上肢的运动能力,对生活产生了很大影响。临床医学证明,基于大脑可塑的重复康复训练,能有效恢复患者受损肢体的运动机能。因医疗资源紧缺、治疗繁琐和康复周期长等因素,传统手把手康复训练方法难以满足逐年递增的患者康复需求。为在一定程度上解决上述问题,近年来国内外已有大量研究机构投入到上肢康复机器人的研究中,并取得了较多的研究成果。在机器人辅助康复训
随着国家“碳达峰、碳中和”能源战略目标的提出,以分布式光伏为代表的新能源在配电网中的占比不断提高,在提高能源利用率、减轻环境负担的同时,新能源发电的尖峰性和间歇性也会导致配电网出现时段性电压越限等问题,危害配电网的安全稳定运行。一方面,传统的分散式电压控制会导致不同调压设备之间难以协调,无法得到全局最优电压控制策略,难以解决全网分散化的电压越限问题;另一方面,分布式电源的大规模应用和电力电子器件的