论文部分内容阅读
随着大数据时代的到来,多媒体数据呈现爆炸性增长趋势,单模态数据检索技术已不能满足人们对信息获取的需求,跨模态检索技术应时而生,且日益成为信息检索领域的主流,具有理论和实际应用意义。跨模态检索的基本内容是建立跨模态数据之间的配对关系,实现利用某一模态数据,检索具有近似语义的其它模态数据。本文主要研究如何为图像文本对建模,实现跨模态数据到潜在语义空间的转换,从而缩小跨模态数据之间的语义鸿沟,实现已知某一数据的文本模态能检索出相关的图像模态数据,或者已知图像模态检索出相关的文本模态数据。为了实现大规模高特征维度多媒体数据之间的相互检索,本文提出了如下三种基于潜在语义空间学习的跨模态检索技术:1.提出一种全相似性保留的哈希跨模态检索方法(All Similarity Preserving Cross-Modal Hashing,ASPCH)。该方法利用映射矩阵将图像和文本映射到潜在语义空间的同时利用标签的监督性质对模态内和模态间的语义表示进行相应的约束,来提高检索精度。其中模态内相似性的保留采用了K近邻的算法,在数据的局部几何结构上考虑了数据的联系,对于模态间则是考虑同一对象不同模态数据之间具有同一语义标签作为约束,以此来增强了语义表示之间的关联性。2.提出一种有监督鉴别跨模态哈希检索方法(Supervised Discriminative Hashing Cross-Modal Hashing,SDCH)。该算法在利用映射矩阵将图像和文本数据映射到潜在语义空间的同时将语义表示的学习转化为可分类问题,在保留模态间语义表示的一致性的同时,考虑约束语义表示在潜在语义空间中线性可分,使得语义表示更加具有鉴别力,从而提高跨模态检索精度。3.提出一种深度语义匹配跨模态检索算法(Deep Semantic Matching,DSM)。该方法通过微调AlexNet图像深度神经网络以及训练文本深度神经网络来分别提取图像和文本的顶层特征表示,将最终的类别概率贡献向量作为图像和文本的潜在语义特征表示,从而实现图像和文本在语义空间中的直接语义匹配。深度语义匹配利用深度学习的方法将底层特征顶层化,且在特征层面实现了跨模态数据之间的潜在语义相关性,实现图文互检。本文在Wiki单标签数据集以及NUS-WIDE多标签数据集上进行了图文互检实验,结果表明本文所提方法与其它前沿算法相比具有一定的优越性。