【摘 要】
:
像素级图像语义理解作为一种细粒度的语义理解任务,不仅能够判别出图像中目标的语义信息,还能够准确地对其进行定位并描绘出其边缘,是计算机视觉领域中的基础任务之一,在自动驾驶、智能交通、智慧医疗、工业检测等领域展现出了巨大的应用前景。目前,针对复杂的自然图像场景,提供区域以及边缘精确信息的像素级语义理解仍面临着巨大的挑战。针对大规模像素级语义标签难以获取、边缘级像素语义理解结果不够精准和清晰、以及缺乏面
【基金项目】
:
北京市自然科学基金(M22022,L211015);
论文部分内容阅读
像素级图像语义理解作为一种细粒度的语义理解任务,不仅能够判别出图像中目标的语义信息,还能够准确地对其进行定位并描绘出其边缘,是计算机视觉领域中的基础任务之一,在自动驾驶、智能交通、智慧医疗、工业检测等领域展现出了巨大的应用前景。目前,针对复杂的自然图像场景,提供区域以及边缘精确信息的像素级语义理解仍面临着巨大的挑战。针对大规模像素级语义标签难以获取、边缘级像素语义理解结果不够精准和清晰、以及缺乏面向边缘形成因素的细粒度边缘检测研究等问题,本文以深度学习技术为基础,探索并建模图像的上下文和语义信息,对像素级图像语义理解中的语义分割和边缘检测任务展开研究。提出一系列新颖的深度学习模型,实现从区域级到边缘级的像素语义理解。论文的主要创新性研究内容和成果包括:(1)在区域级像素语义理解方面,研究了基于图卷积网络的弱监督图像语义分割方法。针对大规模像素级标签难以获取的问题,提出使用涂鸦或物体边界框等弱标注训练高性能的弱监督语义分割模型,利用图卷积网络对图结构进行优化以实现标签传播从而生成像素级伪标签。首先将每张图像划分成超像素,并以空间相邻关系和语义相似度为双重约束构建图结构。与此同时,将涂鸦或物体边界框弱标签嵌入图结构中生成已知标签信息的节点。随后,针对构建的图结构通过图卷积网络的优化将已知的标签传播至图像中未标注的像素,从而生成像素级伪标签。最后,利用生成的伪标签训练语义分割模型。在PASCAL VOC 2012和PASCAL-Context两个公开数据集上的实验结果表明了该方法可以有效提高弱监督图像语义分割的性能,缩小了弱监督方法与强监督方法之间的性能差距。(2)在边缘级像素语义理解方面,研究了基于视觉自注意力网络的通用边缘检测模型。针对当前通用边缘检测方法对上下文建模的局限性和噪声边缘过多的问题,提出了一种新颖的基于视觉自注意力网络的通用边缘检测模型。通过有效建模图像的全局上下文和局部细节信息,促使模型生成清晰的物体轮廓和有意义的边缘。为了不增加计算负担,设计了两阶段的网络框架,分别探索图像的全局上下文和局部上下文特征。在第一阶段,将图像划分为粗粒度图像,利用全局自注意力编码器建模图像的全局上下文。在第二阶段,在滑动窗口的帮助下,将图像划分为细粒度图像块,并利用局部自注意力编码器建模图像的局部细节。此外,全局和局部双向多级聚合解码器分别作用于两阶段,生成边缘感知的高分辨率特征表示。最后,由特征融合模块融合两阶段生成的自注意力边缘特征,生成清晰且噪声少的边缘结果。在BSDS500、NYUDv2和Multicue三个公开的边缘检测数据集上的实验结果表明,与当前基于卷积神经网络的边缘检测方法相比,提出的基于视觉自注意力网络的通用边缘检测方法进一步提升了边缘检测的性能。(3)在细粒度边缘级像素语义理解方面,研究了面向边缘形成因素的细粒度边缘检测方法。根据边缘在表面反射、光照、表面法向和深度的不连续性,边缘被划分为反射边缘、光照边缘、法向边缘和深度边缘四种类型。这些边缘可以为计算机视觉的下游任务提供不同的视觉线索,但是目前边缘检测方法难以同时区分四类边缘,为此提出了一个端到端的神经网络模型来同时检测四类边缘。考虑到四类边缘的不同属性以及它们之间的关系,该模型分三个阶段学习每类边缘的特征表示。在阶段一,利用主干网络提取所有边缘的公共特征。随后在阶段二,针对每种类型的边缘,通过相应的解码器生成具有判别力的高分辨率特征。阶段三的独立决策头聚合来自前两阶段的特征并预测初始边缘结果。与此同时,通过注意力机制推断多个标签之间的空间位置关系,以此融合初始边缘结果生成最终的边缘检测结果。此外,针对目前边缘检测领域缺乏面向边缘形成因素的细粒度边缘检测数据集的问题,构建了第一个包含以上四类边缘的细粒度边缘检测数据集。在该数据集上的实验表明该方法不仅能够有效提升细粒度边缘检测的性能,在通用边缘检测上也取得了优异的结果。
其他文献
对中小跨径桥梁的健康状态进行检测及监测是亟待解决的问题之一。传统的人工巡检和健康监测等方法鉴于成本等原因不适用于数量众多的中小跨径桥梁,而利用过桥车辆信号识别桥梁参数的方法具有经济、高效等优点,为解决中小跨径桥梁的健康监测问题提供了可行的方法。针对桥梁频率间接识别方法存在的一些问题,本文从识别理论、识别方法和识别精度等方面进行了系列研究,取得如下主要研究成果。(1)基于车桥耦合系统动态响应的解析解
集装箱码头自动化是港口的重要发展方向。在我国,各大港口都普遍投入了大量资金和技术,改造或新建自动化集装箱码头,在新设施设计、新设备选型和新技术引进方面进行了大量工作,在设备自动化、现场无人化和全程可视化方面取得了显著成果。新型设施和设备集成了大量的自动化技术,相比传统设施设备具备明显优势,极大地降低了人力成本,显著提高了码头的生产运营效率。但在实际运营中,受限于原有的调度管理方法,新设施设备在高性
交通流理论是分析和研究机动车、非机动车和行人在道路上的运动规律,以减少出行延误和事故、提高道路交通设施使用效率的理论。它可以帮助理解和表达交通流的属性。交通流理论运用分析的方法来解释交通现象的机理,有助于我们更好地理解交通现象及其本质。只有从根本上解释交通拥堵的原因,才能从源头上采取有效的交通管制措施,为经济、环境和民生的发展提供一条可持续的道路。交通振荡是交通流的一个重要特征。它指的是在交通流中
有机聚合物太阳能电池可将太阳能转化为电能,为人类提供了一种新型、绿色能源技术,由于其易于加工、可制备柔性器件、材料选择丰富等优点,成为人们在可再生能源领域研究的热点。如何提升太阳能电池的光电转换效率并维持比较高的稳定性是主要的研究方向。本论文主要以调控有源层形貌为主要切入点,将Flory-Huggins相互作用参数作为表征活性层内部结构的参考依据,通过调整给体或受体的溶解度参数来调控活性层薄膜的相
金属结构在服役过程中,由于承受多种载荷作用及反复的检修和组装,会产生不同程度的磨损和损伤,这将使其性能、尺寸降低到无法再满足设计要求的水平。在保证结构可靠性的基础上对损伤的结构进行合理高效维修,是实现降低成本、提高效率、充分利用资源的有效途径。激光熔化沉淀技术的诸多优点使之成为金属结构的修复的优选或者首选的技术手段之一。同时,由于激光熔覆过程中,金属粉末本身快速熔化及凝固的特性,修复后结构存在耦合
超分辨率作为图像处理领域内的关键技术,因其能够提高图像视频的分辨率,丰富纹理细节,在诸多领域都有重要的理论意义和应用价值,一直以来受到了学术界和产业界的广泛关注。近年来,随着深度学习理论和各种卷积神经网络的快速发展,基于深度学习的图像视频超分辨率重建方法成为了研究热点。然而,在实际应用中,图像和视频超分辨率技术经常面临着各复杂场景的挑战,如计算资源有限、退化方式多样(降采样、噪声、伪影、光线明暗和
青少年道德教育是思想政治教育的重要部分,也是提高思想政治教育实效性的关键要素。提高青少年道德教育的实效性,不仅关系到青少年的茁壮成长,关系到立德树人的根本目标与社会主义道德建设的长远发展,也是建设社会主义现代化、实现中华民族伟大复兴的客观要求。中日青少年的道德教育属于综合性的探索,它在哲学、教育学、伦理学、社会学等学科的基础上,将青少年的道德学习理论与道德养成实践结合起来,探索道德境域的改变以及完
随着我国铁路运营里程尤其是高速铁路运营里程的逐年增长,保障高铁安全运营的铁路巡检工作日益繁重。考虑轨道巡检工人的人身安全并减轻他们的工作强度,我国研发出具有轨道巡检功能的高速综合检测列车(High Speed Comprehensive Inspection Train,HSCIT)。HSCIT配备了大量的相机传感设备采集轨道的图像信息,目的是利用采集到的图像实现轨道故障的自动检测。由于HSCIT
状态评估与剩余使用寿命预测算法研究为动车组轴承运行和维护管理提供强有力支撑。随着传感技术迅猛飞速发展,基于数据驱动的深度学习方法在故障诊断和健康管理研究领域逐渐成为较为有效的研究方法。然而,在数据匮乏的情景中,基于有监督的深度学习方法性能通常会骤降,甚至会失效,例如在运行工况复杂、振动监测数据为非全寿程数据等情景。迁移学习方法通过半监督或非监督建模,构建源域数据到目标域数据之间的映射关系,从而在目
图像修复指的是利用受损图像中的已知信息,恢复缺失区域的内容。近几年,随着深度学习技术的发展,图像修复无论在视觉效果上,还是修复结果的准确性上,都取得了突破性的进展,并且在文物保护、老照片修复、影视特效制作以及图像目标移除等领域得到了广泛应用。因此,本文针对受损图像中的大面积缺失区域和不规则缺失区域展开研究,通过对图像结构和细节等方面的分析增强特征的表征能力,提高修复结果的准确性和视觉质量。论文主要