论文部分内容阅读
随着移动互联网的快速发展,每天都会产生数以亿计的数字图像。这些图像杂乱无章,为了对这些海量图像进行加工处理并找到有用的图像,图像检索算法应运而生。目前应用最广泛的算法是基于语义和基于内容的图像检索算法。而自动图像标注是获取图像语义的主要方法。在自动图像标注过程中,仍有一些问题需要进一步解决。1.图像的底层视觉特征不能充分体现用户所理解的高层语义而引起的语义鸿沟问题。2.图像数据库中每个标签相关的图像频率有很大差距而引起的类别不平衡问题。3.图像数据集中图像的标注信息不完整而引起的弱标记问题。本文主要针对上述三个问题展开研究,主要工作如下:针对自动图像标注中的语义鸿沟问题、类别不平衡问题、弱标记问题,提出了基于典型相关子空间和K最邻近的自动图像标注算法。首先,将图像的底层视觉特征和高层语义特征映射到一个共同的典型相关子空间,在该子空间中求这两种特征间的相似性。其次,由底层视觉特征和高层语义特征的相似性可以得到图像和标签的相关性,根据该相关性得到与每个标签相关的图像子集,称该图像子集为标签的语义空间。然后求该语义空间中的图像与待标注图像的视觉距离,并利用K最邻近算法选择待标注图像的K个邻居。将每个语义空间的K个邻居组合起来构成一个图像子集,该图像子集中每个标签相关的图像数基本平衡;由于该图像子集中几乎包含了标签集中的所有标签,因此考虑到了标签集中所有标签与待标注图像的标注概率。然后,求待标注图像与该图像子集的视觉距离并结合贝叶斯定理,得到待标注图像与标签的初始标注概率。最后,利用标签间的相关性改善图像标注质量。在Corel5k, ESP Game和IAPR TC-12这三个基准数据集上进行实验对比,实验结果表明,所提出的算法能够有效地完成自动图像标注任务。针对传统的基于哈希的图像检索方法中检索精确度较低的问题,提出了基于分块哈希的图像检索算法。首先,将图像特征分为多块,并对这些图像特征块使用不同的哈希映射函数进行映射得到其对应的实值向量。其次,将所有实值向量组合起来形成一个完整的实值向量,并对该实值向量进行阈值二值化形成哈希码。我们对训练集的图像特征和检索图像集的图像特征分别执行上面的步骤得到对应的哈希码。最后,求训练图像和检索图像哈希码间的汉明距离,并选择与检索图像汉明距离最小的几个图像作为其检索结果。我们在Caltech-256和CIFAR-10数据集上进行性能测试。分析实验结果可以得到,和其他图像检索算法相比我们的算法能在较短的时间内取得较高的检索精确度。