论文部分内容阅读
随着Web2.0和社会媒体的快速发展,海量的图像和视频数据在互联网上涌现,这就给多媒体存储、索引和检索的相关研究带来巨大挑战。传统基于内容的图像检索(CBIR)技术利用图像视觉内容对图像进行索引和检索。然而,由于底层视觉特征和高层语义之间的语义鸿沟,CBIR的性能不能令人满意。为了解决语义鸿沟问题,研究者在图像语义理解进行了大量研究。最近的研究热点是统计和机器学习方法在图像检索和语义理解中的应用。本文研究图像语义理解的三个关键问题:基于上下文融合的图像语义理解、异构视觉特征选择、以及图像自动标注。在以上三个关键问题研究的基础上,本文提出了基于图模型表达和稀疏特征选择的图像语义理解框架。
为了有效利用互联网图像所具有的丰富上下文属性,对Web图像检索结果按照语义主题进行归类,本文在图像与其伴随文本中定义了“单词可见度(visibility)”这种新的异构关联,并将其与从图像伴随文本中提取的同构关联结合,在复杂图和二部图上进行聚类分析。具体而言,本文在聚类过程中考虑了Web图像的两种关联属性:伴随文本单词与图像之间的异构关联以及伴随文本单词之间的同构关联。这一方法不仅能够反映单词与图像之间语义关联,而且所定义的单词可见度充分利用了图像的伴随文本这一上下文属性。在此基础上,本文应用复杂图聚类和二部图协同谱聚类等算法验证了在图模型中引入两种上下文关联进行图像聚类的有效性,达到了改进Web图像聚类性能的目的。
视频关键帧图像的语义理解需要有效利用视频镜头中的上下文多模态信息(如转录文本、视觉特征和多标签标注信息等)。为了对各种模态下多个视频镜头之间的高阶关联进行表达,本文引入超图来表达数据间存在的高阶复杂关系。具体而言,各种模态下多个视频镜头之间的高阶关联用超图的超边进行表达,则视频镜头的多模态特征可表示为多个超图模型。通过在多个超图上定义Markov随机游走模型,本文提出多超图排序(MHR)算法对无标记视频镜头的语义概念进行预测,该方法充分利用了视频镜头的上下文多模态信息和高阶关联。在TRECVID数据集上的实验表明了基于MHR进行多模态融合的视频语义概念检测的有效性。
由于本质上的视觉多义性,图像和视频往往被标注多个语义标签。发现并利用多标签之间的关联关系将能提升多标签语义理解的性能。相关研究表明通过子空间学习将多标签关联嵌入子空间,可使得有共同多标签标注的数据样本在所嵌入的子空间中距离相近。本文提出稀疏多标签迁移学习(S-MLTL)框架进行图像自动标注和视频语义概念检测。其基本思想是在相关数据集上学习得到稀疏多标签嵌入的子空间,通过将目标数据集的训练数据和测试数据嵌入该子空间实现多标签关联信息的迁移,从而在目标数据集上取得更好的语义理解性能。在S-MLTL框架中,对脊回归、lasso和elastic net等模型在图像自动标注和视频语义概念检测中的应用进行了分析和比较。
图像中可提取多种局部和全局异构视觉特征(如颜色、纹理和形状等)。这些不同异构视觉特征对识别不同语义概念的重要性不同。与传统降维和流形学习方法不同,本文提出了反映结构性组效应的稀疏特征选择机制。这一方法以异构视觉特征为特征组,对特定语义标签选择最具区别性的特征组和组内的特征子集,以提升图像语义理解的性能,并且这种结构化特征选择将得到图像语义理解的可解释模型。因此,本文提出结构性组稀疏的回归模型进行异构视觉特征选择。为了利用多标签之间的关联关系,提出多标签提升算法并与结构化视觉特征选择模型有效集成。因此,本文提出对图像异构视觉特征进行结构性组稀疏特征选择的多标签性能提升框架MtBGS。在开放基准图像数据集上的实验表明,MtBGS有良好的多标签图像自动标注性能,并使得图像语义理解过程可解释。