论文部分内容阅读
随着互联网的不断发展,人们可以轻易获取到海量的多模态异构数据。由于具有低存储和高效查询的特点,哈希学习方法已被广泛地应用在大规模数据的相似搜索中。尤其是跨模态哈希学习,在具有多模态的数据(如图像和文本)中的应用吸引了越来越多的关注。跨模态哈希学习近年来已经取得了很多的研究成果。然而,目前的跨模态哈希方法还面临着许多弱监督问题,如标记信息不足,特征学习和哈希量化过程不兼容,不能有效识别新类别和模态数据匹配缺失等,这些弱监督问题限制了跨模态哈希学习扩展到更为实际的应用场景当中。本文结合跨模态哈希学习所面临不同的具体场景,进行更为高效更贴合实际的弱监督跨模态哈希研究,实现高效实用的跨模态数据检索,主要工作如下:(1)传统的哈希方法存在特征学习和哈希量化编码过程不兼容的情况,普遍需要大量的标记信息。为了实现高效地跨模态哈希学习,本文提出了一种基于排序的深度跨模态哈希算法(Ranking-based Deep Cross-modal Hashing,RDCMH)。RDCMH首先利用数据的特征信息和标签信息得出半监督语义排序表。其次,为了提升手工特征的语义表达能力,RDCMH将语义排序信息集成到深度跨模态哈希之中,并联合优化深度特征表示和哈希函数的兼容性学习参数。在真实的多模态数据集上的实验表明,RDCMH在跨模态检索中优于其他对比方法,并能够很好地应对半监督哈希场景。(2)为了进一步地解决标签信息不足且不同模态标记空间不同的现实场景,同时不能有效识别未出现过的新类别的问题,本文设计了零样本跨模态哈希(Cross-modal Zero-shot Hashing,CZHash)方法,有效利用不同标签空间的无标签和有标签的多模态数据。CZHash首先使用标签和特征信息量化样本之间的联合相似性。然后定义了一个统一的目标函数,实现深度特征、类别属性空间和哈希编码函数学习兼容的跨模态哈希。CZHash进一步引入了一种交替优化过程来共同优化这些学习目标。在多模态数据集上的实验表明,CZHash算法在有效性和适应性方面都明显优于相关的代表性哈希算法。(3)现有跨模态学习方法通常只关注于两个模态,它们普遍受限于数据模态数大于等于3时所带来的高计算复杂度问题,同时也未能充分地考虑到标签不完整问题。综合考虑上述问题后,本文提出了一种标签信息弱监督跨模态哈希算法(Weakly-supervised Cross-modal Hashing,WCHash),该算法考虑了训练数据中广泛存在的弱监督标签信息(标签不完整性和不充分性)。具体来说,WCHash首先利用所有模态的数据特征优化出潜在的中心模态。其次,采用一种高效的弱标记学习方法对训练数据进行标签补全和丰富,并基于丰富后的标签度量样本之间的语义相似度。然后利用这种语义相似度来指导各个模态与中心模态之间的相关性最大化,从而实现跨模态检索的哈希函数。在真实数据集上的实验结果表明,WCHash比相关的最新跨模态哈希方法更有效。另外,WCHash可以显著降低三种或更多模态上的跨模态哈希的计算复杂度。(4)在许多现实场景中,不同模态的样本映射关系未知,且不同模态的样本数也不完全一致。针对这些问题,我们提出了一种自适应的跨模态哈希方法(Flexible Cross-modal Hashing,Flex CMH),用于从部分(甚至完全)未知的弱匹配数据中学习有效的哈希函数。FlexCMH首先引入了一种基于聚类的匹配策略来探索每个聚类的结构,从而发现聚类(以及其中的样本)之间跨模态间的潜在对应关系。为了减少不完全匹配的影响,我们在一个统一的目标函数中联合优化潜在匹配关系、从匹配关系中导出的跨模态哈希函数和哈希量化损失。为了协调匹配函数和哈希函数,并增强这两个目标的相互作用,还提出了一种交替优化方式来进行联合优化。在公共多模态数据集上的实验表明,Flex CMH比当前的方法取得了更为显著的效果,并且它确实为各类跨模态哈希任务提供了高度的灵活性。