论文部分内容阅读
图像语义标注作为场景理解中的一个基本问题,已成为计算机视觉领域研究的热点;并广泛应用于探险搜索、自动导航、安全防护、医疗护理等领域,具有重要的学术研究和工程应用价值。于是,本文设计了一种基于高阶条件随机场(CRFs)和稀疏字典学习的场景语义标注框架。首先,利用融合深度的多尺度分层过分割法获得场景的超像素区域;接着,利用融合区域级多模态感知线索特征的二阶CRFs模型,实现基于自底向上区域级表达的图像场景标注;然后,利用不同类别统计先验约束判别性视觉特征的稀疏字典表示,构成基于判别性稀疏字典学习的高阶CRFs模型,实现基于自顶向下语义类别判别成本约束的场景语义标注。针对目前快速的非监督过分割方法在复杂场景中难于获得与目标物体的一致性边缘,本文提出采用基于多源感知多尺度组合成组的全局概率边缘超度量图(gpb-ucm)分层方法进行过分割待标注的RGB-D场景。首先,利用场景中图像色彩、纹理及深度等感知线索,基于gpb-ucm分割法进行多尺度分层过分割得到不同尺度下的过分割区域图;然后,基于投影变换配准每个尺度的过分割区域图;最后,融合合并各个尺度配准下的过分割区域的边缘权值,以实现合成最终的分层分割区域图。NYU Depth V2数据集上实验表明,基于深度信息和多尺度融合改进过分割法,能提升划分待解析场景超像素区域的目标物体边缘性能,为后续基于以超像素分割区域为节点的概率图模型的语义标注框架提供紧凑且可靠的场景结构表达。鉴于传统场景语义标注方案中单一模态局部特征的表达能力欠佳和局部特征信息难于捕获上下文语义标签之间有效依赖的问题,本文提出一种基于自底向上多模态特征融合的二阶CRFs模型建模场景上下文关系的图像语义标注方法。首先,以即得场景过分割区域为节点,分别提取并归一化以颜色驱动的核描述子外观特征和以深度驱动的HHA几何特征。接着,拼接各个超像素区域节点即得的归一化多模态视觉特征向量;利用支持向量机(SVM)分类器判别超像素区域相应的语义类别得分作为该CRFs模型中各节点的一元项势能;以相邻超像素过分割区域中LUV空间色彩特征差异为该CRFs模型中邻域边的成对项势能,自底向上构建待解析场景区域级表示的概率图模型。然后,在结构化支持向量机框架SSVM下,最小化训练集中基准标注图与基于该CRFs推断的标注图之间的误差,基于BCFW(Block Coordinate Frank-Wolfe)优化方法学习该二阶CRFs模型参数。最后,给定CRFs模型和测试图像时,在最大化后验概率MAP框架下,基于图分割方法推断待解析场景的语义标注结果。NYU Depth V2数据集上的实验表明,基于深度信息和多模态特征融合的二阶CRFs模型标注框架,能解析推断出视觉表现力更强、标注准确率更高的语义标注图。为了克服场景标注中局部上下文信息难以捕获长距离超像素区域视觉表达和目标对象之间的相互依赖关系的问题,本文提出一种基于自顶向下判别性稀疏字典学习高阶条件随机场模型的图像标注方法。首先,按照每个不同语义类别,分别提取相应过分割区域中的视觉特征;采用字典学习方法稀疏编码每个类别的视觉特征,以初始化各个特定类别的相应稀疏字典;在上述二阶CRFs模型标注基础上,引入每一语义类的稀疏编码子直方图高阶约束成本,构建基于自顶向下高阶CRFs的标注模型。然后,在结构化支持向量机框架SSVM下,最小化训练集中基准标注图与高阶CRFs模型推断的标注图之间的误差过程中,先固定高阶CRFs模型参数基于梯度下降法递进式学习相应稀疏字典表示;后固定稀疏字典基于BCFW优化方法进行交替式学习高阶CRFs模型参数。最后,给定高阶CRFs模型和测试图像时,在最大化后验概率MAP框架下,利用稀疏字典表示,按照统计超像素区域每个类别的方式统一高阶势能项与一元势能项,基于图分割方法推断待解析场景的语义标注图。在NYU Depth V2和GRAZ02数据集上实验证明,与其他高阶模型相比,本文高阶模型具有更强判别能力,相应的标注框架能提升目标物体标注的精度。