论文部分内容阅读
近年来,在图像检索领域,大量的方法利用人工标注的图像进行有监督哈希学习,并通过训练的哈希函数将图像映射为二进制的哈希码进行图像检索。但是由于人工标注过程的巨大人力耗费,以及人工标注的标签不能从细粒度层面描述图像的语义信息等多个问题,使得这些图像检索方法的性能明显受限。另一方面,随着互联网技术的蓬勃发展,存在大量被互联网用户标注的社交媒体图像,因为与社交媒体图像相关联的用户标签包含丰富的语义信息,可以明显区分不同图像之间细微的差别,因此这些用户标签和社交媒体图像可用于哈希图像检索,从而降低人工标注成本并提高检索效果。在这个场景的启发下,本文提出一种针对用户标签和社交媒体图像的多目标图像检索方法(Multi-object Image Retrieval Method for User-provided Tags and Social Media Images,UTSMIR),具体内容如下:(1)针对用户标签存在的噪声,标签缺失,语义模糊,以及标签与图像目标关系模糊等多个问题。本文提出一个端到端的网络框架,通过充分考虑标签与标签的关系,以及标签与图像视觉内容的关系,设计多方面约束的损失函数来指导标签优化学习,全面地处理用户标签存在的噪声,语义模糊,标签缺失以及图像目标与标签的不对应关系等多个问题。(2)针对现有的哈希表示方法将图像映射为唯一的哈希编码,导致当进行多目标检索时,往往性能不佳的问题。本文提出一种基于图像目标的哈希表示方法,首先提取图像的不同视觉目标,并设计多目标损失函数来指导哈希学习,使得属于相同语义类别的图像目标生成的哈希码距离较近,而属于不同语义类别的图像目标生成的哈希码距离较远,从而将图像的每个目标映射为其对应的哈希编码。(3)针对现有的图像检索模型中独立执行标签学习和哈希学习步骤,导致最终学习的模型泛化能力较差的问题,本文提出一个基于多任务深度学习的网络架构,并设计一个统一的损失函数同时指导标签学习和哈希学习,两种学习相互受益。实验结果证明,本文的统一优化框架优于独立执行标签学习和哈希学习的单任务学习框架。为了验证本文所提方法的有效性,本文在NUS-WIDE数据集和MIR Flickr数据集上进行三组实验。首先,将本文标签优化算法的F1值与OT,LR,TC,TCMR,DNMF等标签优化算法的F1值进行比较,实验结果表明,本文标签优化算法的的F1值比其他标签优化算法的F1值大0.012-0.187,证明了本文标签优化算法的有效性。接着,本文设计实验证明了本文哈希学习,标签学习以及多任务联合学习框架的有效性。最后,本文设计实验,将本文的图像检索结果与当前主流的LSH,Deep Bit,KSH,BRE,DSH,DRSCH,WP_DSH,WP_KSH,WP_DRSCH等图像检索方法进行了对比。实验结果证明,本文所提方法的检索精度与MAP值均优于当前主流的图像检索方法,其中本文方法的MAP值高于其他检索方法2.2%-9.2%;此外,本文的图像检索方法提供了丰富的图像检索方式,既可以进行单目标图像检索,也可以进行多目标图像检索,改善了用户的检索体验。