论文部分内容阅读
随着计算机软硬件水平的快速发展以及各种移动终端智能设备,如智能手机、数码相机等的出现,人们在互联网上上传和分享图片变得越来越容易,这就导致了互联网上多媒体数据总量爆炸地增长。由于文本检索的巨大成功,目前大部分主流的图像检索系统仍采用基于文本的图像检索方式。可是,图像的文本信息通常含有很多噪声而且图像文本信息对于图像的描述能力不足,因此基于文本的图像检索方法通常得不到令人满意的检索结果。为了解决这个问题,图像搜索重排序的思想被提出并且受到大量的关注。图像搜索重排序是指在初始检索结果基础上,通过挖掘检索结果中的文本特征、视觉特征等潜在信息或者利用外部辅助知识来对图像重新进行排序,从而提高检索性能。现存的图像重排序算法在重排序过程中仅仅使用图像的一种特征,如文本特征或视觉特征,结果仍然不太令人满意,一些研究者试图在重排序过程中使用图像的多种模态特征并且取得了不错的效果。可是他们均没有考虑到图像多模态特征之间的相互关系对重排序结果的影响,而且图像的多模态特征是从不同角度对图像进行的描述,它们本质上是异构的,这就对于直接度量它们之间的相似性带来了很大的挑战。基于上述考虑,本文提出了两种基于图框架的重排序方法:典型相关分析随机游走重排序CCA-RW (Canonical Correlation Analysis Random Walk Reranking)和潜在语义稀疏哈希随机游走重排序方法LSSH-RW (Latent Semantic Sparse Hashing Random Walk Reranking)。典型相关分析随机游走重排序方法中,通过线性映射将图像的异构特征表示映射到同一抽象空间中,从而可以方便的度量图像不同特征之间的相似度。然后,我们构建同构完全图来表示图像集合,在计算得到图像的相似度矩阵后,我们采用随机游走算法来对图像进行重排序。潜在语义稀疏哈希随机游走重排序方法中,我们认为在潜在语义空间中对图像多模态特征之间的相互关系建模以及图像的高层抽象表示对于改善重排序结果是有帮助的。该方法首先分别通过稀疏编码和矩阵分解的方式将图像的视觉特征和文本特征映射到两个等同的潜在语义空间中,然后通过线性映射将这两个潜在语义空间映射到同一高层抽象空间中。然后在该高层抽象空间中直接度量图像不同模态特征之间的相似性,然后构建同构完全图,计算图像的相似性矩阵,通过图上的随机游走来对图像进行重排序。这两种方法均解决了图像多模态之间的异构问题,从而更方便更准确地度量图像多模态特征之间的相似度。通过与其他几种算法进行对比,我们在数据集上的实验验证了这两种方法的有效性。