论文部分内容阅读
图像语义分割任务作为其他高层图像处理任务的基石,从始至终都是计算机视觉应用领域的关键和热点研究方向,其对于汽车自动驾驶,人机交互等与人类生活密切相关的应用领域,也产生了巨大作用。随着人工智能与深度学习技术的兴起与发展,采用深卷积神经网络(Deep Convolutional Neural Network,DCNN)技术的一系列图像分割方式和早期方案相比性能有了很大的改善。这种基于深度学习的方式,通常都需要大规模的像素级分割标注数据对模型进行训练,但是这样的标注任务往往必须花费巨大的时间和经济成本,这也制约了当前基于深度学习的语义分割方法的进一步发展。所以,国内外不少科研学者都期望通过稍微降低对现有分割方法的精度要求,来减少图片标注任务的成本,于是提出了利用图片中的物体类别信息和物体边界框等标注形式作为弱监督条件的语义分割方法。本文提出了基于图像内部的边界框先验知识以及图像外部的预训练模型知识来对现有弱监督语义分割(Weakly Supervised Semantic Segmentation,WSSS)方法进行改进,从而提高现有WSSS方法的性能。现有基于物体边界框信息的弱监督语义分割方法(Weakly Supervised Semantic Segmentation based on Box-level Label,WSSS-BL)在训练阶段往往忽略了物体边界框的约束并导致最终的分割结果存在缺失的现象。针对这一问题,本文首先根据物体边界框是包含物体最小矩形的先验信息,提出并验证了物体边界框中几乎每一行与每一列都应包含属于物体的像素与不属于物体的像素的假设。通过将这一假设形式化为一个类似多示例学习(Multiple Instance Learning,MIL)的问题,本文提出了一个简洁的类多示例学习损失函数来约束模型包含这一先验信息。同时考虑到在图像内的物体边界框周围以及边界框相交的区域往往会存在多类物体,具有更为复杂的语义信息,本文还对像素级的交叉熵损失进行了加权,使模型更加关注这些较难分类区域的学习。本文将这两种损失进行结合并进行了一系列实验,使用了Pascal VOC 2012数据集和Cityscapes数据集,在现有基于边界框标注的弱监督语义分割方法基础上添加了本文提出的损失函数,不仅提升了原有方法的分割结果,也且超过了当前最好的方法。现有基于图像级标注信息的弱监督语义分割(Weakly Supervised Semantic Segmentation based on Image-level Label,WSSS-IL)方法一般是通过先是用图像物体类别标注训练一个分类器,然后使用分类器得到图像中的类激活图(Class Activation Map,CAM),并使用CAM经过一些后处理方法得到训练分割网络的伪标签;经调研发现现有的弱监督物体检测(Weakly Supervised Object Detection,WSOD)方法已经有了不错的效果,因此本文尝试先使用WSOD方法得到图片的伪边界框,然后再使用第一部分设计的损失函数改进现有的基于图像级标注的弱监督语义分割方法,同时考虑到伪边界框的不准确性,本课题在原有损失函数的基础上考虑了伪边界框的置信度,并将它作为边界框的权重对第一部分中提到的损失函数进行了改进,使其更具鲁棒性。本课题在Pascal VOC 2012数据集上进行了实验,通过并行训练方式使用鲁棒的边界框先验损失辅助分割模型的训练,进一步提高了现有基于图像级标注的弱监督语义分割方法的性能,验证了本课题方法的有效性,验证了本文提出的方法的有效性。视觉定位图像文本预训练(Grounded Language-Image Pretraining,GLIP)是微软公司提出来的将自然语言处理(Natural Language Processing,NLP)与计算机视觉(Computer Vision,CV)相结合的视觉语言(Vision-Language,V-L)预训练模型,该方法通过将物体检测任务重新形式化为一个视觉定位(Visual Grounding,VG)任务,使用了超大规模的数据集(约27M个图片文本对)来对模型进行训练,最终得到的预训练模型多个数据集上均得到了不错的效果。GLIP的优势在于其预训练模型提取的语义特征包含了更为丰富的语义信息,由于使用了文本而非确定的标签进行训练,该预训练模型能够对未在训练集中出现的物体短语较好的定位,从而能够对任意数据集图像产生不错的边界框预测结果,因此,本文提出使用GLIP来生成伪边界框。同时本文设计了一个算法将GLIP预训练模型与LBBA弱监督物体检测模型生成的伪边界框进行了融合,得到了更为准确的伪边界框,本课题基于EPS方法生成的像素级伪标签与融合后的伪边界框,使用鲁棒的边界框先验损失训练分割模型,最终在Pascal VOC 2012数据集上超过了现有其他方法,取得了最好的结果,证明了本文提出的伪边界框融合算法以及鲁棒边界框先验损失的有效性。