论文部分内容阅读
基于内容的多媒体检索的目标是从海量的多媒体数据中快速、准确地返回符合用户需求的多媒体内容。当前,主流的多媒体搜索方法都是以特征为导向的,这些方法通过度量特定多媒体特征之间的相似度来评估多媒体内容和用户需求的相关程度。然而,由于多媒体内容的丰富性以及多媒体低层特征与用户高层语义之间存在的“语义鸿沟”,使用单一的媒体特征很难取得理想的搜索效果。为此,有必要寻找一些方法来有效地融合多媒体各方面信息以弥补这个“语义鸿沟”,进而增强对多媒体信息的搜索能力。本文对当前多媒体搜索系统中存在的一些问题进行了深入的研究,并试图从多媒体内容分析及融合的角度加以解决。本文取得如下创新成果:1.提出了基于多视角协同学习的交互式多媒体搜索方法。该方法将多视角学习(Multi-View Learning)的思想引入到交互式搜索中,通过多个视角的交叉学习来自动地挖掘正例样本以增加反馈信息。此方法是一种半监督的交互式搜索方法,只需要用户标注有限几个正例样本就可以启动这一自推断机制来自动增加反馈信息。实验结果表明,相比于其它交互式方法,本方法在大大减轻用户标注负担的情况下,取得了更高的平均搜索精度,特别是提高了排在前半部分搜索结果的精度。2.提出基于多模态信息融合的视频重排序方法。该方法充分考虑到用户在实际搜索过程中只检查前几个返回结果这一行为特性,通过交叉利用多个模态空间的信息来重新排列传统多媒体搜索引擎返回的结果,以期将最相关的结果排在最前面。实验结果表明,该方法能够有效地提高排在最前列返回结果的精度,特别是前30个返回结果的精度。3.提出了基于语义关联信息融合的高层概念检测方法。该方法从本体论的观点来建立概念与概念之间的语义关联,并将这些关联信息融合到单独概念的概念检测之中,以期提高单独概念检测器的检测精度。实验结果表明,对于那些可以找到关联概念的特定概念,其检测器在融合了关联语义信息后,检测准确度比传统的检测器有了明显的提高。4.提出了基于帧融合的拷贝检测方法。该方法将视频拷贝检测问题转化为隐马尔可夫解码问题(HMM Decoding Problem),通过精心地设计HMM中的状态间转移约束及状态和观察间转移约束来松弛传统检测方法中使用的严格时间一致性条件,以期抵抗各种复杂的视频变化。此外,一个间隙约束也被引入到拷贝检测中,以便于灵活地判断拷贝起始和终止位置。此方法将这三个约束条件融合到一个Viterbi-Like的算法中,使得可以灵活高效地处理长视频流中的拷贝检测问题。实验结果表明,此方法不但可以克服传统拷贝检测中不能检测长视频流的问题,还可以有效地抵抗各种复杂的视频变化,并取得了较高的拷贝定位精度及源视频片段定位精度。此方法使得挖掘长视频数据之间的语义关联信息成为可能。