论文部分内容阅读
自上个世纪九十年代以来,基于内容的视频检索便成为一个热门的研究课题。在信息爆炸的今天,如何使用计算机自动挖掘视频中的语义信息,并有效地利用高层特征进行视频检索,已经成为多媒体研究领域中一个亟待解决的问题。视频语义表示的优势在于与人的认知理解相符合,是一种解决低层特征与高层语义之间语义鸿沟问题的有效途径。本文提出一种基于视频语义的检索方法,该方法利用已经获得的视频语义标注信息,使用一种具有长期学习记忆性的相关反馈方法对视频语义进行查询。相关反馈是一种借助人机交互来提高检索精度的方法,本文讨论并实现了一种基于支持向量机的相关反馈方法:用户在一轮检索结果中选择符合查询目的的关键帧作为正例样本,系统根据正例样本数量以及检索的排序信息选择负例样本,这两类样本构成SVM的训练集,学习得到SVM模型后,使用该模型作为新一轮检索的分类器。由于用户反馈得到的训练集往往是一个小样本集,根据经验,利用小样本集训练得到的SVM模型通常能够取得优秀的分类效果。另外,为提高SVM的训练速度,本文在SVM训练过程中采用了一种快速算法Sequential MinimalOptimization,简称SMO算法。相关反馈是提高检索准确度的有效手段,但一般的相关反馈系统的缺点是无法对用户的反馈信息进行长期保留,是一种短期记忆学习机制。而且基于视频低层特征的相关反馈检索仍然深受语义鸿沟的影响。为建立视频语义检索系统,并使其相关反馈操作具有长期学习记忆性,本文使用语义标注信息构造一个低维的视频语义特征,以此为基础建立一个关键帧与语义概念的关联网,通过用户的相关反馈操作对关联网进行具有长期记忆功能的更新,最终的查询结果即关联网中与查询概念相关程度较高的关键帧。本文提出的检索方法,具有长期记忆性,系统的检索精度能够通过知识积累不断得到提高;此外,由于检索是基于语义特征的,能更好地理解用户的查询意图,取得了较好的实验效果。