论文部分内容阅读
随着互联网上多媒体数据的日益丰富,如何实现高效及精确的检索成了一个重要的问题。由于在检索效率和存储空间方面的优势,哈希方法近年来受到了学术界和工业界越来越多的关注,并被广泛应用于大规模多媒体数据的近似近邻查询中。大多数现有的哈希学习方法,首先会使用人工定义或学习得到的特征来表示多媒体数据,然后通过另外的哈希学习过程来生成最终的二值化哈希码。这类将特征抽取过程和哈希学习过程分开的方法,有一些明显的缺陷。首先,由于哈希码具有离散性,所以大部分哈希学习方法首先会学习得到一个连续压缩表示,然后通过量化函数来将连续的结果变成二值化的哈希码。然而,在二值化的过程中,量化误差通常会被忽略,这导致哈希学习的目标和最终的编码之间存在一定的差异。其次,由于分离了特征抽取步骤和哈希学习步骤,特征表示本身的质量,成了限制哈希编码表达能力的天花板。为了解决哈希学习中现存的问题,本文提出了一个深度哈希框架,来进行多媒体数据的哈希编码学习。相比于传统的方法,本文提出的深度哈希框架有三点优势。首先,由于深度网络能够进行特征学习,深度哈希方法能够提供从原始多媒体数据到哈希码的端到端学习方式,这解决了特征表示和哈希编码协同优化问题。其次,得益于深度神经网络强大的拟合能力,深度哈希方法能够学习得到高质量的从连续特征表示到离散哈希编码之间的非线性哈希映射函数,让哈希码尽量保持原始数据之间的相似关系。最后,本文在深度哈希框架中提出了量化损失的概念,让深度网络在训练过程中能够缩小连续的压缩表示和二值化的哈希码之间的差异,从而极大地提升了哈希码的表达能力和压缩比例。此外,本文在上述深度哈希框架中,利用贝叶斯估计创新性地提出了深度哈希网络(Deep Hashing Network,DHN)方法,来解决图片数据的哈希编码学习及大规模检索问题。最后,本文在Caffe和TensorFlow两个主流的深度学习框架中,实现了提出的深度哈希框架及深度哈希网络(DHN)方法,并通过一系列的实验,证明了提出的方法比之前的工作取得了显著的多媒体检索准确率的提升。