论文部分内容阅读
随着互联网时代的快速发展,数字图像数据的数量呈现了井喷式增长,海量的数字图像数据对图像检索任务提出了迫切的需求。传统的图像检索任务包括基于文本的图像检索和基于内容的图像检索两种方式。因为仅仅依靠关键字进行检索的方式,基于文本的图像检索常常不能清楚表达人们的检索需求。基于内容的图像检索方式,时常因为无法提供所需要的查询图像而造成检索任务无法完成。基于上述检索方式的弊端,同时因为触摸设备的全面普及,基于手绘草图的图像检索方式得以提出并快速发展。在基于手绘草图的图像检索任务中,手绘草图因为高度抽象、多样性的结构特征对检索任务带来了极大的挑战。现有大多数的基于手绘草图的图像检索算法采用的策略是将手绘草图和自然图像这两个图像域的特征表示强行映射到共同的特征子空间,但是并未有效的利用手绘草图的结构。本文认为自然图像的特征表示应该是以手绘草图的结构为条件的。因此,受启发于人类在进行图像对比时采取的反复观看和比较局部图像区域的策略,结合卷积神经网络提取的特征更加鲁棒性的特点,本文提出了一个全新的基于深度学习的手绘草图图像检索框架。本文的手绘草图图像检索框架一共包括了两个模块。第一个模块是用于模拟人类策略的空间对齐网络(Flexible Latent Alignment Generator,FLAG),它能有效地发现手绘草图和自然图像之间潜在的共有结构,并为第二个模块特征对齐网络提供初始的自然图像候选兴趣区域集合;第二个模块是基于联合注意力机制的特征对齐网络(Representation Learning with Co-attention,RLWC),主要目的是自适应的以查询手绘草图结构作为条件输出自然图像的特征表示。通过在Sketchy手绘草图数据库上的多组对比实验,结果表明,在手绘草图图像检索任务上本文手绘草图检索框架拥有更佳的检索性能,特别是基于零样本学习任务的检索任务中性能提升尤其明显。