论文部分内容阅读
图像检索技术在搜索引擎、电子商务、医学领域、搜索引擎以及工业等领域具有重要的地位。近年来,随着互联网技术的高速发展,尤其是微博、豆瓣等社交网络的流行,图像、视频、音频、文本等异构数据每天都在飞速的增长。针对这些包含丰富视觉信息的图片,如何在这些海量的图像库中快速、准确地检索到用户所需的图像,成为计算机视觉与信息检索领域研究的热点。基于哈希学习的图像检索方法,已成为图像检索的利器,将成为海量图像检索的有效解决方案,将人们从需要耗费大量人力、物力和财力中解放出来。未来互联网上的图像还会不断增加,图像检索技术将在这些领域发挥越来越重要的作用。图像检索可以分为基于文本的图像检索(Text Based Image Retrieval,TBIR)和基于内容的图像检索(Content Based Image Retrieval,CBIR)。基于文本描述的方式需要人工标记图像文本内容,因此仅适用于小规模的图像数据,对大规模图像数据标记需耗费大量的人力与财力;目前大多数学者对于图像检索的研究主要偏向于基于内容的图像检索。基于哈希算法的图像检索方法,将图像从高维特征映射至低维的海明空间中,生成一个低维的二进制哈希编码序列,表示一幅图片。避免了高维特征产生维数灾难、降低了检索过程中计算内存的要求,能够快速响应用户检索,成为解决大规模图像检索有效解决方案。针对以上问题,本文借助于深度哈希学习方法来学习图像的二进制哈希编码。深度学习是一种强大的特征学习算法模型,能够从底层数据通过学习,提取数据之间的潜在关系,抽取图像的高层语义信息,具有强大的特征学习能。在信息检索中,哈希学习是一种高效的算法,哈希学习通过哈希函数将原始的高维特征数据映射至一个低维的海明空间,形成一个紧凑的二进制编码序列。其特征的表示不仅得到简化,并且在进行相似性度量时,还能够运用海明算法进行快速地比较,大大地提升了检索的速率,达到了检索的实时性要求。本文主要的工作包括2个方面:(1)基于深度残差网络的一种端到端深度哈希学习模型。由于卷积神经网络能很好地提取图像特征,进行分层表示,目前卷积神经网络已成功应用于人脸识别、图像分类、目标检测等应用领域,借鉴深度学习模型中的深度残差网络(ResNet)提取图像的特征,能够很好地表达图像,再嵌入标签语义信息进行哈希学习,得到图像的哈希值。降低了图像的维数,减少了存储空间和加快了检索速度。为了验证新模型的性能,本文在多种图像数据集上实验,并与多种主流的哈希学习算法进行对比。实验结果证明,这种端到端的深度哈希学习方法取得很高的检索精准度,同时对于精细分类的图像数据检索也取得了很不错的效果。(2)基于深度残差网络和量化迭代(ITQ)算法的大规模图像检索模型。在借鉴深度残差网络提取深层次特征后,再使用ITQ哈希学习算法,得到所需的紧凑的二进制哈希编码。算法在多种图像数据集上进行实验,并与多种主流的图像检索模型进行对比。实验结果证明,相对于传统方式,该方法利用深度学习提取特征值可以提高图像的检索精准度。