论文部分内容阅读
图像是人类通过眼睛学习世界的主要媒介,它承载了非常丰富的信息。人类认知和推理一个未知物体时,不仅需要简单地判别该物体所属的类别(比如,“它是什么?”),更需要与记忆中已知的相似物体建立起视觉上的联系(比如,“它像什么?”)。通过分析两者的相似性和一致性,人们可获得更有意义的信息。图像匹配作为计算机视觉的关键技术之一,可以快速准确地建立这样的视觉关系,辅助计算机像人类一样去认知和理解物体。然而在现实场景中,由于摄像机位置和角度的不同以及光照的变化,即使面对同一场景,记录下的数字图像也千变万化。如何在匹配中克服光照、尺度和角度等变化,准确地建立图像间的视觉相似关系成为图像匹配技术的一大难题。除此之外,对于只是视觉内容相似的图像,如何克服它们外观、颜色以及纹理等特征上的不同,最终建立起准确的语义匹配是又一个研究难点。这些问题使得图像匹配技术的研究具有极大的挑战性和研究价值。本文围绕图像匹配的若干关键技术,重点研究了稠密图像匹配的相关问题。对尺度旋转不变的稠密图像匹配、图像稠密语义匹配、对象骨架提取算法及其在图像匹配中的应用、以及如何利用图像稠密匹配解决计算机视觉相关任务等方向进行了研究。本文主要创新点如下:1.针对已有稠密图像匹配算法不能很好地解决尺度、旋转等几何变换问题,本文提出一种新颖的基于传播引导的稠密图像匹配算法。该算法同时考虑图像底层表达和图像几何变换,分别提出一种尺度、旋转不变的稠密描述子和一个基于传播引导的匹配框架。通过估计图像之间的几何变换来引导底层描述子的匹配,从而克服匹配中图像之间存在尺度、旋转和视角等差异的问题。实验结果表明,该算法可产生准确的结果。2.稠密描述子表征图像的局部结构,不具备很强的语义性,因此在匹配仅仅语义内容相似但外观迥异的图像时总会失效。针对上述问题,本文提出一种基于对象感知的图像稠密语义匹配方法。该方法基于一个新颖的对象感知的分层图模型,以由整个对象到局部结构再到每个像素的方式实现图像稠密语义匹配,从而克服背景杂质的影响,使得匹配更加准确。另外,该方法通过对象驱动的方式学习图像的底层表达,从而更好地定义图像的视觉相似性。3.对象的骨架包含了对象的结构信息,这些信息可以帮助提高图像稠密语义匹配的准确性。因此,本文首先提出一个多尺度双向传播全卷积网络模型,并将之运用于对象骨架的检测。该模型通过建立一个多尺度特征金字塔,并采用双向传播方式实现多尺度上下文信息融合,从而更好地实现对象骨架的检测。在公共骨架检测数据库的数据表明,该算法能够准确地检测对象骨架结构。此外,本文将对象骨架信息引入到稠密语义匹配框架中,提出基于对象结构感知的稠密图像语义匹配方法。实验结果表明,在稠密语义匹配框架中引入对象结构信息,可进一步提升稠密语义匹配算法的准确性。4.为了阐述如何使用图像匹配技术辅助完成计算机视觉任务,本文将稠密图像匹配技术应用于两个不同的计算机视觉任务中。具体而言,本文以联合分割和语义分割为例,将稠密图像匹配作为其中的关键步骤,为这些任务提供丰富的信息,从而有效地解决相关问题。