基于深度学习的图像语义分割算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:a77115280
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义分割作为计算机视觉研究的重要任务之一,能够对图像进行稠密预测,即实现像素级分类。语义分割由于能够提供丰富的场景信息,而被广泛应用于诸多领域,如自动驾驶、医学病灶区域分割、虚拟现实、土地情况检测等。与传统方法相比,深度学习出于其优秀的学习能力和特征表示能力,被广泛应用于很多领域,并促进了这些领域的发展。近年来,在深度学习的推动下,图像语义分割方法取得了长足的进步,但仍存在一些问题。例如,许多语义分割方法虽然具有优秀的分割性能,但是由于网络结构过深、特征通道数庞大,导致其具有较高的计算成本和低效的分割速度。这阻碍了语义分割在实时分割领域的应用。而部分实时语义分割模型虽然拥有令人较为满意的分割速率,但分割精度仍具较大的改进空间。因此,本文旨在探究基于深度学习的实时语义分割方法,具体内容如下:本文介绍了深度学习理论、数据集和评价准则。其中深度学习理论为后续研究的理论基础,数据集和评价准则为实时语义分割中所通用的,可以对模型的性能进行评估。针对目前高精度语义分割方法无法实现语义分割在实际应用中速度要求的问题,本文提出基于注意力机制的轻量级实时语义分割方法。该方法注重对速度和精度的平衡,在速度方面,所用模型结合了深度可分离卷积、分解卷积等,目的是减少模型的参数量和计算量;在精度方面,使用了注意力机制来促进高层特征和低层特征的融合效果,以进一步提升模型的分割质量。通过以上改进,本模型在Cityscapes和Camvid数据集的测试集上mIoU指数分别达到74.8%和71.2%,且能够分别以64FPS和79FPS的速度处理分辨率为512×1024和360×480的输入图像。针对轻量化实时语义分割方法分割性能不佳,且存在上下文缺失的问题,本文提出基于多尺度特征提取的实时语义分割方法。与轻量化模型相比,本模型虽然包含更多的参数,但其仍旧保持了实时的分割速度,且进一步提升了模型的分割性能。本模型整体采用编码器-解码器结构,首先编码器由本文提出的多尺度特征提取模块搭建而成,该模块含有多个分支,且每个分支的感受野各不相同,用于提取多尺度上下文信息。同时,本模型根据下采样模块来调整特征提取模块的感受野大小,用于缩小不同层级中特征提取模块的感受野差距。最后,解码器部分使用逐步上采样的方式来恢复分辨率,并融合了浅层网络中的特征图用于引导恢复分辨率。通过以上改进,本模型在Cityscapes和Camvid数据集的测试集上mIoU指数分别达到77.2%和76.3%,且对分辨率为512×1024和384×480的输入图像的处理速度分别为66FPS和90FPS。
其他文献
图像是人们感受和理解世界的重要媒介,相比于文字和声音,图像承载着更加直观且丰富的信息。然而,在采集、处理和传输过程中,图像不可避免地产生失真和降质,增加了图像理解的难度。因此,需要设计图像质量评价算法解析图像降质的原因并量化其质量,从而为图像画质的增强和视觉体验的提升提供指导。本文从主观图像质量评价的特性出发,首先研究了主观图像质量评价中图像质量排序任务与评分任务的关联关系,并在此基础上设计相应的
学位
随着智能成像设备的普及和互联网的快速发展,图像数据呈现爆发式增长。然而,互联网上的大部分图像是没有对应的语义描述的,这使得人们很难有效利用这些图像信息。人工标注耗时耗力,而且存在个体差异。图像描述生成模型可以为图像数据自动生成相匹配的字幕,这广泛应用于智能搜索、人机交互等领域。近年来,随着深度学习算法被引入到图像描述生成任务中,模型生成的字幕质量显著提升,在个别指标上甚至超过人类。然而,现有数据集
学位
近年来,卷积神经网络在图像特征学习领域取得了令人瞩目的成功,能够有效地解决图像分类、图像分割、目标识别等问题。为了追求更高的性能,研究人员设计出许多结构精巧、参数量大的模型应用于各种计算机视觉任务当中。然而,设计一个良好的神经网络结构并非易事,不仅需要设计者掌握深度学习的相关专业知识,而且要求设计者能够针对不同任务的特点设计适合的神经网络结构。因此,提出了神经网络结构搜索来解决神经网络结构的设计难
学位
随着5G网络的普及和移动终端设备的发展,人类社会已经步入大数据时代。大数据存储与分析技术是信息领域的关键技术,对社会经济的发展具有及其重要的推动作用。信息检索作为大数据技术的重要分支,受到了国内外学者的广泛关注。哈希检索具有存储成本低、查询速度快等优势,是大规模数据检索的重要技术手段,拥有广阔的发展前景。传统的基于批量数据处理的哈希方法只能用于处理静态数据,无法适应在线场景下的流数据处理。在线哈希
学位
随着遥感领域技术的飞速发展,带来了随年份递增的大量的影像数据,这些数据仍然依靠人工解译处理。而人工作业模式,己经越来越无法满足高效、快速提供图斑解译的应用要求。近年来飞速发展的深度学习技术为大数据时代的图斑解译提供了新的解决方案。与传统方法相比,深度学习方法完全基于数据驱动,可以批量处理输入地图像,快速地实现遥感解译工作。因此本文使用深度学习中的语义分割实现了可自动化的生产建设项目图斑解译工作。然
学位
在现在信息化社会飞速发展的年代,电源管理芯片不仅在传统的消费电子领域应用广泛,电动汽车、物联网、医疗、工业机器人、人工智能等新兴产业日新月异的发展也为电源管理芯片开辟了新的市场,推动着电源管理芯片技术的革新与进步。针对在通信、工业、汽车、新能源等领域对高效率、低纹波、大功率的电源芯片日益增长的需求,传统单路DC-DC转换器的应用越来越局限,而双路交错技术的纹波特性好、功率开关管应力小等诸多优势慢慢
学位
在人工智能的时代,面向大数据的机器学习算法为人类现实生活提供大量的便捷。但是这些中心化的算法往往需要收集大量的隐私数据,这也引发了人们对数据安全问题的担忧。在这样的背景下,联邦学习的概念被提出。联邦学习框架里,个人隐私数据无需上传到中央服务器或第三方平台,而是保存在个人设备本地,并直接在本地训练联合模型,中央服务器只收集本地更新参数用于联合模型的更新。联邦学习为使用去中心化数据训练联合模型提供解决
学位
遥感图像在军事、农林、水利、交通等领域的应用十分广泛。受限于传感器的成像特点,无法通过单一传感器获得同时具有高空间分辨率与高光谱分辨率的遥感图像,遥感图像融合技术通过将同一场景不同传感器所拍摄的遥感图像进行结合,从而得到高质量遥感图像,以便后期各相关领域使用。本文研究了基于图像多方向特征及模糊神经网络的遥感图像融合算法,具体内容如下:研究了基于优化模糊结构的模糊神经网络的遥感图像融合算法,设置了四
学位
随着深度学习的浪潮不断袭来,基于深度学习的各种算法的性能极限也在不断刷新。然而作为实现这些人工智能算法的重要基础,足够的优质数据却并不容易获取。随着人们隐私意识的提高和相关法律法规的完善,现实场景中数据分布呈现有限和分散的孤岛。联邦学习算法的提出为在法律约束下使用分布式数据训练联合模型提供了解决方案。然而,传统的联邦学习算法面临着通信成本高、系统异质性、统计异质性、模型异构性和激励措施设计等挑战。
学位
电感式位置传感器是一种非接触式位置传感器,因其具有高可靠性、高分辨率、高线性度和优秀的抗杂散磁场能力等优点而广泛应用于汽车电子、机器人行业、自动仓储行业、太阳能行业、航空航天以及轨道交通运输等行业。随着位置传感器产品不断更迭,电感式位置传感器在未来向着高精度、低噪声、低输出延时、高灵敏度等方向发展,这些发展方向对电感式位置传感器设计提出了更高的要求。本文以提高精度为主要目标,采用0.18μm 30
学位