论文部分内容阅读
本文研究的主要内容是形状特征,及其在基于内容的商品图像检索中的应用。形状是图像的一种重要视觉特征,在很多计算机视觉任务尤其是目标识别中具有很重要的地位。由于在图像中物体形状存在各种各样的形变和图像噪声的影响,形状特征的鲁棒性是影响其性能的关键因素之一。另一方面,基于内容的图像检索是模式识别与计算机视觉中的经典研究课题。而随着电子商务的发展,淘宝、京东、Amazon和ebay等国内外的购物网站成为人们购物的重要途径,通过图像搜索这些网站上的商品图像即商品图像检索成为了基于内容的图像检索技术的一个很有潜力的实际应用方向。在经典的基于内容的图像检索技术中,研究的对象大多是互联网上的场景图像。这些研究大多基于SIFT, SURF等图像局部特征,运用词包模型构造描述子,利用空间金字塔匹配进行特征距离计算。然而在商品图像检索中,由于图像比较简单,往往难以检测到足够的有效特征点,加之背景区域的噪声影响,致使基于局部描述子的特征效果不佳。同时,由于商品图像的一些有利的特点,使其上的形状特征的提取和表示比一般图像更加准确和方便:1)商品图像的背景一般较为简单,简化了图像的分割;2)商品作为图片描绘的对象,一般位于图像的显著位置,这对物体(商品)的检测提供了有效的先验信息;3)商品往往具有外观稳定性,商品在图像中的形状往往具有固定的一个或多个模式。在应用形状特征时,无论是基于内容的商品图像检索还是其他应用场景,形状的抽取和表示都是最基本的两个问题。在形状的抽取方面,本文首先针对简单背景的商品图像提出了一个基于图像连通域的主物体区域提取方法,之后对一般的包含显著物体的图像(包括背景更为复杂的商品图像)提出了一种基于分割块的通用物体检测和分割算法。在形状的表示方面,本文主要针对常用的形状上下文特征(Shape Context, SC)进行了研究,首先研究了利用模糊化方法改进形状上下文的鲁棒性,之后引入了有序词包模型,在形状上下文描述子的基础上构建了一种适用于实际应用的新描述子有序形元直方图,该描述子可以实现高效和准确的匹配。在背景相对简单的商品图像中,本文提出的基于主物体区域的商品图像检索算法可以得到商品物体的区域。具体的,该算法根据商品图像中物体区域和大小确定一个主物体区域作为图像的感兴趣区域,在此区域上综合利用颜色纹理特征和形状特征进行基于内容的图像检索。在其应用的移动商品检索系统中,数据库图像需要预先经过一个简单的支持向量机分类器过滤,以保证算法可以得到正确的商品区域。而查询图像是利用移动设备上的客户端拍摄得到商品图像,通过让用户遵循一定的拍摄指示得到关于商品位置和大小的先验知识,之后利用这一先验知识对图像进行分割和并得到语义意义上的前景物体(商品)。相对于专用的物体检测(例如行人检测,车辆检测,人脸检测等)的模型和算法,通用的物体检测算法的发展相对滞后。对于专用物体检测模型和算法,需要解决的问题是建立物体模型和根据模型寻找物体;然而在通用物体检测算法中,需要的模型更为抽象,需要定义和分析“物体”以及“前景背景”这些更高层次的抽象概念。本文通过分析图像区域与周围区域的差异和图像区域本身的一些性质来构建检测特征,利用贝叶斯模型将这些特征进行融合,最后计算给定图像区域是一个物体的概率(本文称之为区域的物体性)。形状上下文是一种常用的形状特征,虽然很多研究者利用模糊化的思想的对形状上下文上做了改进,但是这些模糊化的方法都不够严格。本文实现了严格的模糊化形状上下文,并且进一步构建了多层模糊形状上下文和多尺度模糊形状上下文。多层模糊形状上下文与扩散距离(diffusion distance)具有类似的性能,尤其是对铰接式形变有很好的鲁棒性。多尺度模糊模型可以模拟多个尺度的失真,通过在匹配时确定模糊尺度的方式提高了特征的鲁棒性。在实际应用中应用形状上下文特征,一个重要的限制因素是特征的匹配速度。采用词包模型和采用动态规划是解决这个问题的两个主要思路,本文中提出了一种结合这两个思路的新的解决方案。在词包模型中,由于在构建描述子形元直方图时丢失了特征点的空间关系信息,导致特征描述能力的下降。通过引入有序词包模型,本文提出的算法保留特征点的部分空间位置信息,从而提高了形元直方图的效果,同时在匹配直方图中的子直方图时采用动态规划算法提高匹配速度。