论文部分内容阅读
随着图像规模的不断增长,如何快速、准确地检索出需要的图像成为智能信息处理的重要研究内容。根据检索的时效性,图像检索分为离线检索和在线检索。根据使用的图像特征,离线检索进一步可分为基于全局特征的检索和基于局部特征的检索。前者主要采用高维特征表征图像内容,检索耗时长、效率低,需要快速的高维索引技术;后者主要采用视觉词典表征图像内容,但其视觉词典生成耗时长、不支持增量聚类。在线检索对时效性要求高,需要实时的特征生成和相似性计算方法。这些问题归结为两个关键点:高维聚类和实时计算,可以利用哈希技术来解决或改善。位置敏感哈希可对图像全局特征进行聚类,并形成快速检索方法;也可以对局部特征进行聚类,并生成视觉词典。常规哈希可以为图像或视频生成签名特征,并用于实时检索。本文研究了基于哈希技术的图像检索方法,主要研究成果如下:1.研究了图像快速聚类,针对现有图像聚类尤其是图像视觉聚类算法耗时长、计算复杂度高和难以支持增量聚类的局限,提出了基于位置敏感哈希的图像聚类方法。该方法首先利用判别指标计算图像特征聚类优先级,并选取聚类使用的特征;然后,利用位置敏感哈希函数对图像特映射得出桶标记;最后,通过桶标记的合并实现图像聚类。实验结果表明,该方法能以2~3个数量级的时间优势取得与k-means算法相当或相近的聚类效果,并具有增量聚类特性,能够用于大规模高维数据聚类。2.研究了基于全局特征的离线图像检索,针对精确欧氏空间位置敏感哈希(Exact Euclidean Locality Sensitive Hashing,E2LSH)算法单表检索结果随机性强、内存消耗大两个局限,提出了基于多表频繁项投票E2LSH的图像检索方法。该方法先构建多重哈希函数并对图像进行映射得出多个桶映射链,然后计算查询图像的桶标记并在多个桶映射链上检索得出多个检索向量,再根据检索向量构建检索矩阵,最后对检索矩阵进行频繁项投票得出最终检索向量。实验结果表明,与E2LSH检索方法相比,该方法在提高检索准确率的同时,内存消耗降低到十几分之一左右,并且图像数据集规模越大,节省的内存越多。3.研究了基于局部特征的离线图像检索,针对现有的视觉词袋法(Bag of Visual Words,BoVW)中视觉词典生成效率低、不支持增量聚类的局限,提出了基于集成式位置敏感聚类BoVW的图像检索方法。该方法先利用多重位置敏感哈希函数对所有图像特征局部点进行映射得出多重桶标记;然后,对这些桶标记进行聚类得出多个基划分,并对多个基划分进行集成得出最终划分,即视觉词典;最后,将图像用视觉单词的词频向量表示,根据词频向量对图像进行检索。实验结果表明,与现有的基于视觉词袋法的图像检索相比,该方法有效的缩短了视觉词典生成的时间,提高了对动态扩充图像集的适应性,改善了图像检索的性能。4.研究了MPEG(Moving Picture Expers Group)数据流上的在线图像检索,针对当前图像检索特征复杂、计算耗时长、难以在线实现的局限,提出了基于稳健哈希的在线图像检索方法。该方法首先设计稳健哈希函数并利用二维DCT变换计算查询图像的签名;然后,在视频流上实时计算各图像帧的哈希签名;最后,通过异或运算计算签名之间的汉明距离,并进行相似性判决。实验结果表明,该方法能够实时的提取特征和计算相似性,对视频流上单幅图像的检索时间约为0.25毫秒,达到在线检索要求。5.研究了MPEG数据流上的在线视频检索,针对当前视频检索计算复杂度高、运算时间长、难以在线实现的局限,提出了基于哈希签名在线视频检索方法。该方法先设计哈希函数并计算查询视频各帧数据量并得出查询视频的哈希签名;然后,在视频流上计算各帧数据量,并得出固定长度视频的签名;最后计算两个签名之间的相似性,实现在线视频检索。实验结果表明,该方法能够实现实时的视频特征提取和相似度计算,达到在线检索的要求。