论文部分内容阅读
在过去的十年里,随着互联网技术和社交网络的飞速发展,每天都会产生亿量级的多媒体数据。互联网上的多媒体数据以不同的形式存在来自于异质数据源,比如一个网页可能包含了文本,图片,视频等多个模态的数据,虽然这些数据来自不同的模态,但是他们之间有很强的语义关联。跨模态检索就是输入一个查询数据,返回与查询数据相似的结果且查询数据与返回的结果来自于不同模态。跨模态检索主要面临两个技术难题,一个是如何提取不同模态的样本特征以包含更丰富的语义特征,二是如何跨越不同模态之间的语义鸿沟。为了解决上述问题,许多跨模态检索方法被提出,其中哈希方法凭借其高效的检索速度和低耗的内存空间受到工业界和学术界的广泛关注。跨模态哈希方法将高维原始数据映射成紧凑的哈希码,通过异或操作在汉明空间中计算哈希码之间的汉明距离来度量跨模态数据之间的相似性。 针对跨模态检索中的两个问题,我们提出两个跨模态哈希检索方法,具体内容如下: (1)提出基于三元组深度哈希的跨模态检索方法。为了提取有效的跨模态样本特征,我们将特征学习过程和哈希码学习过程整合在同一个端对端的深度神经网络中。同时,我们提出的方法使用三元组类标作为监督信息,三元组类标可以更加灵活地捕捉到多种高阶的相似性关系并生成不同的约束,而且使用三元组类标抽取数据可以扩大训练数据个数从而减轻过拟合问题,该方法有效地提高了跨模态检索的检索精度。 (2)提出基于图正则化三元组深度哈希的跨模态检索方法。基于上述方法,我们利用三元组类标建立不同的三元组损失函数,模态间三元组损失函数,模态内三元组损失函数和图正则化损失函数。模态间三元组损失函数用于构建不同模态之间的语义关联,模态内三元组损失函数用于增强哈希码的判别性,图正则化损失函数用于建立原始空间和汉明空间之间的相似性关联,该方法改善了跨模态数据之间的语义鸿沟问题并有效地提高了检索精度。