论文部分内容阅读
场景分割作为计算机视觉领域基础且富有挑战的问题,其目的是给场景图像上每个像素赋予一个类别标签。因此,场景分割既需要精确定位中每个像素的位置,又需要准确识别出每个像素所属类别,其丰富的场景解析能力使得它在场景理解、自动驾驶、人机交互、增强现实等领域有着广泛的应用。近年来,得益于深度卷积网络强大的特征表达能力,全卷积网络算法逐渐成为场景分割领域的主流算法。但是,现有算法忽略了不同特征差异,混淆不同特征信息,使得特征判别性下降,导致预测错误。因此,本文以场景分割中的判别特征感知为研究重点,主要从特征解耦和特征选择两个角度增强特征判别性,进而准确高效地建模场景关系、分割场景要素,解决现有算法在特征区分、特征选择、速度精度平衡上的问题,扩展和完善全卷积网络场景分割算法。论文主要研究内容如下:首先,在特征解耦方面,针对场景分割中类内不一致和类间低区分性问题,提出了基于边缘与区域特征解耦的场景分割方案。现有基于全卷积网络算法将场景分割建模为逐像素分类问题,忽略了类别整体关系,导致类内不一致和类间低区分性问题。本文基于边缘与区域特征解耦的思路,提出了判别特征分割算法。该算法利用多尺度上下文关系和通道注意力机制提取区域特征,增强类内一致性;同时,利用显式语义边缘监督约束提取边界特征,增大类间区分性。通过两种特征的交互极大地增强了特征的判别性,提高了算法的分割性能。大量定量与定性实验分析表明,该算法能很好地解决类内不一致和类间低区分性问题,特征判别性和分割性能均达到了当前领先水平。其次,在特征解耦方面,针对实时场景分割精度与速度平衡问题,提出了基于细节与语义特征解耦的场景分割方案。当前实时场景分割方法往往牺牲空间细节信息提升速度,使其在高分辨率特征上判别性下降,进而导致分割精度严重下降。针对这一问题,本文观察到空间细节信息与语义信息对分割性能均很重要,而两种信息对建模编码方式的需求不尽相同。所以本文基于细节与语义特征解耦的思路,提出了双边分割算法和改进双边分割算法。双边分割算法利用深度较浅且通道较多的分支提取细节特征,利用深度较深且通道较浅的分支提取语义特征;同时,通过高效融合两种特征,达到了速度和精度上的有效平衡,有效提高了分割效率。此外,改进双边分割算法在原双边分割算法的基础上简化提炼出了专门适用于实时场景分割的双边分割架构。大量实验结果表明,两种算法取得了当时最佳的速度和精度的平衡,分割效率处于当前领先水平。再次,在特征选择方面,针对场景分割远距离上下文关系建模问题,提出了基于隐式引导特征选择的场景分割方案。远距离关系建模有利于推理分割场景要素,当前场景分割方法往往利用自注意力机制建模远距离关系。但是,自注意力机制中存在大量冗余计算,导致复杂度较高,限制了它的应用;同时,大量冗余信息也降低了特征的判别性。为此,本文基于相似性关系隐式引导特征选择的思路,提出了代表图分割算法。该算法学习特征相似性关系,引导特征选择过程,使其选择有代表性的特征,进而有效建模远距离关系,减少自注意力机制的冗余计算,提高特征判别性表达,大幅提升分割性能与效率。实验结果表明,该算法效率相比自注意力机制方法大幅提升,并且分割性能也处于领先水平。最后,在特征选择方面,针对场景分割类内类间上下文关系建模问题,提出了基于显式引导特征选择的场景分割方案。当前场景分割方法建模上下文关系时,不区分其种类,导致关系混淆、特征判别性下降,进而使得分割结果出现矛盾。针对这一问题,本文基于监督约束显式引导特征选择的思路,提出了上下文先验分割算法和条件分类器分割算法。上下文先验分割该算法利用显式亲和矩阵监督的约束,明确建模场景中同类上下文关系和类间上下文关系,增强了特征判别性。通过综合两种上下文关系,大幅提升了分割性能。条件分类器分割算法利用辅助语义监督引导选择同类特征,动态生成样本特定的分类器内核。该分类器核可以解决类内差异问题,增强了特征判别能力,进而提高算法分割性能。大量定量与定性实验分析验证了上下文先验分割算法与条件分类器算法的鲁棒性与泛化性。两个算法均在多个场景分割数据集取得了领先水平的性能。本文的研究主要针对场景分割在具体应用中的需求,重点研究场景分割中的判别特征感知问题,对推动该技术在场景理解、自动驾驶、人机交互、增强现实等领域的应用具有重要意义。