论文部分内容阅读
深度学习因为具有复杂非线性函数拟合的能力,所以在许多挑战性任务上成为最有效的方法之一。但是,一方面,其成就依赖于海量数据的支持。另一方面,深度学习应用于具体场景时还需要考虑具体数据的特点。图像语义分割作为基本的计算机视觉任务之一,由于其目标是对所有像素进行分类,所以对其它任务有极大的帮助。考虑以上因素,本文以基于深度学习的图像语义分割技术研究为课题,着重开展弱监督和带先验的语义分割工作。语义分割数据的标注需要耗费大量的精力,所以全监督学习方式很难快速适应日益增长的数据。本文针对这种问题,研究了利用图像类别标签完成语义分割的弱监督学习方法。首先,依靠全局池化联合分类与分割的网络通常会获取目标更具有判别性的特征区域,这使得分割结果存在丢失小目标、难以识别细节特征和语义关系错位等情况。为了解决这些难题,本文提出采用空间金字塔池化替代全局池化。空间金字塔池化本来就具有多尺度上下文融合以及局部整体相互联系或对比的能力,它集成于很多典型的卷积神经网络中。加之,本文的新颖之处在于对空间金字塔池化区域引入信号掩盖机制,鼓励更多次级判别性特征区域用于训练与识别。而且,本文的竞争性空间金字塔掩盖池化损失函数动态地选择金字塔等级进行优化,使得区域掩盖和模型训练的效率增加。本文的模型在PASCAL VOC 2012上取得62.8%的交并比,相对state-of-the-art提升约1%,领先于简单的全监督模型。同时深度学习仍然没有摆脱专一性过强的束缚,模型要迁移到实际场景是比较难的。比如医学图像处理中,图像数据先验的影响可能超越模型。本文以黑色素瘤分割为例说明了数据先验的重要性。针对黑色素瘤区域的中心整体性先验,本文设计的图像增强策略保持了先验特点。然后,以分辨率上采样的反卷积操作强调特征图的空间区域关联性,进而分割输出单连通区域。模型分割性能比规模更大的ResNet-38好很多,其交并比较之2017年黑色素瘤分割比赛最佳模型也领先1.5%。由于图像的结构信息并不明显,条件随机场处理不能有额外提升。总之,弱监督学习以及先验与模型的结合都是未来通用人工智能的热点研究方向,具有长远意义。本文通过丰富可靠的实验证明了空间金字塔掩盖池化和深度上采样卷积神经网络的有效性。