论文部分内容阅读
随着大数据时代的到来,图像和视频数据的爆炸式增长对视觉目标对象的高效查询与检索带来前所未有的挑战,亟需高效鲁棒的特征表示与检索方法,因此面向大规模视频图像的高效检索是计算机视觉领域的需要解决的重要问题之一。实现高效鲁棒的大规模图像检索的关键是如何进行高效鲁棒的紧凑特征提取,因此本文的工作主要集中在以下两个方面:(1)如何让后端的紧凑特征学习与前端的目标检测进行联合优化从而实现高效特征抽取,(2)如何设计更鲁棒的相似度度量和量化方法,提升紧凑特征的判别力和鲁棒性。(1)传统紧凑特征提取方法通常假定目标的检测结果已经预先给定而只关注特征抽取建模,然而在智能视频监控等实际应用中,往往无法假定图像中感兴趣目标的位置信息是已知的。最终目标检索的性能,不但依赖于紧凑特征学习还同时依赖于前段目标检测的模块。面向大规模纹身检索这一问题,本文提出了基于多任务的检测与紧凑特征联合学习方法。充分考虑目标检测和特征学习两个任务之间的相关性,使目标检测和特征学习进行有效的特征共享,并相互促进。最终,利用一个端到端学习模型即可同时实现纹身检测和纹身紧凑特征学习的联合优化。(2)针对如何设计更好的相似度度量和减少量化损失的问题,本文提出了两种哈希学习方法分别对应两种不同的检索场景。有监督的哈希学习方法即通过有确切标注的数据集进行哈希学习,通常对图像检索性能有较高的要求。现存的基于监督学习的哈希学习方法,通常只考虑哈希特征在汉明(Hamming)空间的判别性和距离,但很少同时考虑哈希特征在汉明空间的分布均匀性,因此很难充分利用整个汉明编码空间。本文提出了基于锚点引导的深度哈希学习方法。该方法利用汉明空间的预划分技术,并以此生成多组结构化二值码(结构隐变量),把结构化二值码当做锚点用以引导哈希学习模型的训练;进一步地,在特征空间上原本自由的特征学习过程,变为由锚点引导的特征点逼近锚点的过程,从而有效降低量化损失。虽然监督的哈希学习取得了巨大进步,但是在实际应用场景中,大规模准确数据往往需要耗费巨大的人力和物力,因此很多情况下大量数据都是无标注的,在这种情况下如何利用好无监督数据进行有效的哈希学习也是一个具有重要应用价值且极具挑战性的问题。本文提出了基于生成对抗网络的无监督哈希学习模型,该模型通过对抗学习的方式使得输入模型的结构隐变量与输出二值码之间互信息最大,从而实现类内变化和类别之间编码特征的解耦,利用解耦的类别信息提升无监督哈希学习的紧凑特征的鲁棒性。