论文部分内容阅读
人工智能技术的发展与大数据分析技术息息相关,图像数据是大数据中的重要构成部分,因此对图像数据的处理和挖掘变得越来越重要。在图像数据处理和挖掘的众多迫切需求中,近邻搜索是一个基础的、广泛的需求,工业界和学术界的许多问题都需要一个快速、准确的图像近邻搜索算法。本文研究的问题是无标签情况下,海量图像上的快速近邻搜索。近年来,由于哈希在存储和检索效率两方面的优势,利用哈希技术解决快速近邻搜索问题已被广泛认可,已有的基于哈希的近邻搜索技术可分为数据独立的方法和数据依赖的方法两类。数据依赖的方法属于数据驱动的一类方法,它适应的从数据中学习哈希函数,从而能产生更加紧凑的哈希码,因此该类方法已成为解决海量数据近邻搜索问题的主流方法。数据依赖的哈希方法大多依赖样本相似度学习哈希函数。在数据有标签的情况下,样本相似度可以通过标签信息准确获得,但无标签时,该相似度则需要通过样本在特征空间的距离近似得到。对于现实世界中的图像,由于光照、遮挡、形变等因素的影响,从特征空间估计的相似度矩阵会存在偏差,从而影响哈希函数的学习。本文结合多视角学习中的相关理论和技术,提出了一种融合多视角信息和互补哈希表的海量图像近邻搜索方法。本文贡献总结如下:(1)考虑到多视角数据在嵌入空间的一致性,提出了一种近邻融合的多视角融合方式;(2)基于近邻融合的多视角数据融合方式,从多视角数据中提取邻居置信度和相似度排序两种信息,并将其作为指导线索用于哈希表的学习过程;(3)考虑到图像海量的特点,结合互补哈希表在海量数据检索中的优势,提出了一种融合多视角信息和互补哈希表的海量图像近邻搜索算法,提高了无监督情景下,海量图像近邻搜索问题的性能;(4)本文提出的算法在NUS-WIDE,CIFAR-10和MNIST三个公开数据集上进行了评估,实验结果表明了本文方法的有效性。