论文部分内容阅读
从上个世纪初期开始,基于内容的多媒体检索成为来多媒体信息检索领域的研究热点。传统基于内容的多媒体检索研究,主要是针对单一类型的多媒体对象,包括图像检索、音频检索、视频检索等。这些研究大多不能支持不同类型多媒体对象间的相互检索。研究表明,人脑是通过跨越不同感官所传递的信息来作出综合判断,从而完整地认知外界事物的。类似地,要形成对多媒体语义的整体理解,多媒体检索的必须能够灵活地跨越不同类型的多媒体数据,这就是本文所提到的跨媒体检索。跨媒体检索是一种新兴的检索技术,源于基于内容的多媒体检索研究。基于内容的多媒体检索研究自从九十年代初期被提出以来,一直是计算机视觉领域一个非常活跃的研究方向,该研究综合应用了统计分析、机器学习、模式识别、人机交互、多媒体数据库等多个领域的知识,以解决传统基于文本的多媒体检索存在标注费时费力、主观差异性大等缺陷。最初被提出来的是基于内容的图像检索技术,从图像中提取颜色、纹理、形状等视觉特征构成特征向量,作为图像的索引。这种技术后来也被运用到基于内容的视频检索和音频检索运动数据检索等。这些方法大多取得了不错的检索效果,但是不支持检索过程中不同类型多媒体对象之间的灵活跨越,跨媒体检索正是基于这一思路。跨媒体检索的研究目标是使计算机能够综合处理和检索图像、音频等数字化的视觉和听觉信息,形成对多媒体语义的整体理解,突破传统方法在检索过程中对多媒体类型的限制。针对图像、音频等多媒体数据在底层内容特征上的异构性和不可比性使得难以计算跨媒体相关性的现状,本文以典型相关性分析为突破点,研究了图像和音频在内容特征上潜在的统计关系,并且在特征降维的同时最大程度地保持了相关性学习结果,从而通过距离函数实现了跨媒体的相关性度量,使得提交一种类型的多媒体查询例子,可以检索到语义相似但不同类型的多媒体对象。