论文部分内容阅读
图像语义分割是计算机视觉的研究热点之一,是图像分析与图像理解的基础,在汽车无人驾驶(街景识别与理解)、无人机应用(着落点判断与航拍)以及穿戴式设备(虚拟现实)、人机交互、医疗等实际场景中得到广泛应用。近几年随着深度学习中卷积神经网络的不断完善,语义分割也得到了突破性的进展。基于GAN(Generative Adversarial Networks)的半监督/弱监督方法由于节省了大量数据集的标注成本,所以在图像分割领域得到广泛应用,但现有的方法均采用固定惩罚因子对判别器中的对抗损失进行监督学习,模型缺少泛化能力,并且分割不够精细,在分割较复杂场景时易造成严重的类感染和类漂移。针对这些问题,本文展开了相关研究工作,并取得了如下成果:1、由于基于GAN的半/弱监督方法均采用固定惩罚因子对判别器中的对抗损失进行监督学习,并采用FCN(Fully Convolutional Networks)作为判别器的基础框架,模型缺少泛化能力,并且分割不够精细,在分割较复杂场景时易造成严重的类感染和类漂移。针对该问题,提出了一种学习率自适应的对抗学习的图像语义分割方法。该方法设计了一种类似Seg Net结构的网络判别器,采用最大池化进行非线性上采样,既继承了FCN的优势,可以输入任一大小的图像,又保留了相对精细化的特征相关性信息;在生成器分割网的训练过程中,用到了带标注的源域数据集和未标注的目标数据集。将标注数据的Ground Truth和分割网络的输出结果求交叉熵损失,同时加入了判别网络的对抗损失,并加入动态自适应学习率来控制对抗损失,从而能自适应地调节分割网络输出特征与源域标注Ground Truth之间的分布差异。一方面,由于提出的模型可以通过自适应学习率调整对抗损失与交叉熵损失的权值,从而更新生成器的分割网络,所以新的模型提高了语义分割的精度;另一方面,提出的模型在判别器中采用了Seg Net框架代替FCN框架,缓解了暴力池化问题,并且能够将未标记目标数据集的边缘信息引入网络结构中,从而能有效纠正网络的边缘区域,较好地保持图像的边缘细节,从而使分割结果更为精细。在PASCAL VOC2012标准数据集进行实验,并与现有性能较好的弱监督分割模型相比,实验结果表明:本文模型能够更精细地分割出较复杂背景的目标,有效地缓解类感染和类漂移,并且极大地保留了边缘细节。2.Adapt Seg Net(域自适应的分割网络)在基于半(弱)监督的语义分割中取得了较好的效果,但是该模型在不同特征层的对抗学习中加入了固定惩罚因子,并且该模型直接用合成数据集GTA5与真实数据集City Scapes进行对抗训练,故分割精度仍有待提高。针对该问题,提出了一种学习率和域自适应的生成式对抗性网络,并将其用于城市交通场景的分割。算法首先采用SG-GAN方法(Semantic-aware Grad-GAN)对合成数据集进行训练,使新生成的合成数据集SG-GTA5在颜色和纹理上更接近真实场景数据集City Scapes,并用该数据集代替Adapt Seg Net中的源数据集GTA5;然后在不同特征层的对抗学习中使用自适应的惩罚因子(学习率),通过该学习率调整特征层的损失值,进而动态更新网络参数。此外,为了提高网络的判别能力,算法在对抗网络的判别器中增加了一层卷积层;最后在City Scapes数据集上进行了验证,与目前几种主流的半监督分割进行比较。实验结果表明,提出的模型与最新的Adapt Seg Net算法相比较,对road、sidewalk、car等较大的目标分割精度提高近5%,m Io U(mean Intersection over Union)提高了0.7%。