论文部分内容阅读
随着移动设备的普及和多媒体技术的迅猛发展,人们日常生活中触手可及的多媒体数据呈现爆炸性增长。同时,新兴的交互式互联网技术的发展,使得这些数据有了一个整合的平台,从而形成了海量多媒体数据,并且这些数据之间关联信息丰富,准确理解它们将对文化建设、社会发展、公共安全等方面都具有重要的意义。因此,如何对互联网上海量图像数据进行有效的检索和分析目前已成为多媒体内容分析领域亟待解决的问题。 传统的图像检索和分析技术受制于底层视觉特征和高层语义信息间的语义鸿沟,已不能很好地应对数据的海量规模和多样性,语义的层次化结构以及噪声问题。针对上述问题,本文首先对海量图像数据的内容特点以及对应任务的问题难点进行了讨论,然后从视觉局部特征的结构化描述,基于局部特征的语义描述,以及图像检索框架三个方面来对海量数据的内容理解和检索技术进行了深入的研究。 在视觉局部特征的结构化描述方面,本文提出一种局部纹理自相似描述子(LSSD)用于局部视觉相似图像的检索任务中。该局部描述子可捕捉兴趣点周围区域在纹理特征上的内部几何布局,且具有鲁棒的旋转不变性。针对图像检索中传统的视觉词袋模型中对局部视觉特征的描述力不足的问题,本文整合LSSD特征和SIFT特征设计了一种图像多特征描述,该描述既能鲁棒地捕捉兴趣点周围区域的内在几何分布,又能有效地捕获兴趣点周围的内容信息。此外,针对上述多特征描述形式化了一种半相对熵的距离度量准则。在两个公共的图像数据集和一个网络图像数据集上进行视觉相似图像检索实验,结果表明本文提出的局部纹理自相似描述子与SIFT特征在描述内容方面互相补充,可被有效的应用到视觉相似图像检索任务中。 在基于局部特征的语义描述方面,本文提出了一种层次化的图像语义描述(Vicept)来用于海量图像的语义分析和检索。通过对海量图像语义理解中的视觉多义性和语义多态性这一关键性问题的深入讨论,本文学习了一种有效的知识库:Vicept,其刻画了图像视觉表观和语义概念间的隶属度分布,并对图像构建了一种从局部到全局的层次化语义描述。本文利用混合范式正则来得到结构稀疏且有较强分辨能力的Vicept描述。此外,为了提高Vicept的学习速度,一种基于在线学习的算法被引入。对于一种新的描述,恰当的度量准则也是必不可少的。本文针对Vicept的层次化语义描述构建了一种新的图像距离度量,通过其层次间的独立性分析来进行最后的融合。本文在海量语义图像检索,图像标注和语义图像重排序任务下对所提出的方法进行了测试,实验结果表明,Vicept可以实现快速准确的图像语义检索和标注。 在图像检索框架方面,本文提出了一种基于显著性指导的视觉匹配框架用于局部视觉相似图像检索,在得到检索结果的同时,还能得到图像间的相似区域的位置。本文针对局部相似图像数据的特点,提出了一种新的图像检索基元:图像中具有视觉显著性和丰富视觉内容的区域(VSRR)。克服传统词袋模型描述能力不强的缺点,一种鲁棒的基于显著性分析的相对约束被设计来提高检索的性能,该约束可捕捉到VSRR中兴趣点的显著性相对布局。为了加快检索的速度,本文提出了一个有效的可将上述约束嵌入到索引系统中的算法框架,并且该框架有较高的可扩展性。在五个公共图像数据库上的局部视觉相似图像检索实验结果表明,本文的方法在保证检索效率的同时,还能取得比传统检索方法更高的检索准确度和召回率。