论文部分内容阅读
随着多媒体技术的发展,视频资料的数据量不断膨胀,为了有效地理解和利用视频中包含的丰富信息,不仅需要合理的数据库系统来组织丰富的视频资料,还需要行之有效的视频语义理解方法来为使用者提供最大的便利,因此,从20世纪90年代开始,视频语义标注技术逐渐成为研究的热点和难点问题。本文以视频多模态特征分析为基础,提出了一种基于分类的视频多模态特征融合方法,同时还分析比较了视频标注中小样本问题的三种半监督学习算法。本文的主要工作如下:
·提出了一种基于分类的视频多模态特征融合方法。
根据视频的多模态特性,本文研究了视频标注中的多模态特征融合问题,提出了一种基于分类的视频多模态特征融合方法。在每个单模态下训练的分类器用来计算镜头在该模态下包含概念的置信分数,不同模态下的分类器输出按照基于概念类的权重进行融合。权重通过采用基于概念类的方法来确定,从而制定多模态融合策略,类中包含的概念能够共享同一种权重融合策略,融合的权重是通过在训练数据集合上学习确定的。实验对比结果显示,基于分类的视频多模态特征融合方法取得了比现有算法更好的标注性能。目前,概念的类别是人工预先定义好的,如何自动地对概念进行分类是值得进一步研究和探索的课题。
·分析比较了现有的三种视频标注的半监督学习方法。
基于目前收集和手工标注视频信息的困难,及视频语义标注的研究和应用价值,本文研究了如何运用半监督学习技术进行视频小样本标注的问题。由于存在少量的已标注样本和大量的未标注样本,如何利用未标注样本来提高原有标注方法性能成为该问题的重点。因此,我们采用半监督学习的技术,自动从未标注样本中挑选出新的样本数据,然后用这些数据充实原来的标注样本集合。在选取新样本的时候,充分考虑并利用视频的多模态特征,从而提高整体的标注性能。本文实现了现有的三种半监督学习方法,并进行了实验对比,对小样本标注的关键问题进行了实验对比和分析探索。