论文部分内容阅读
随着多媒体技术和网络技术的迅速发展,以及大量视频应用的广泛普及,视频内容呈现快速增长趋势。面对海量的视频,如何对之进行有效的管理,使用户能够迅速检索到想要的信息,成为了一个亟待解决的重要问题。视频概念标注用语义词典中预先定义的概念对视频内容进行描述,能够有效支持包括检索在内的多种视频应用,对于视频内容管理具有重要的意义,也成为近年来研究的热点。然而,由于语义鸿沟的存在,视频概念标注仍然是一个困难而极富挑战性的问题。另一方面,视频中存在着丰富的上下文信息,这些信息对于提高视频概念标注的准确率非常有用。在本文中,我们把视频中的上下文信息分为三类,包括视觉上下文信息、语义上下文信息和视频文字上下文信息。其中,视觉上下文信息是指视频内容本身包含的视觉元素之间的相互关系,是视频本身的属性;语义上下文信息是指人类定义的语义概念之间的相互关系,可以通过对训练集标注数据学习而得到;视频文字上下文信息是指大量的视频中包含着文字,这些文字一般和视频内容密切相关,如果能够正确识别这些文字,将十分有利于计算机对视频内容的自动理解和标注。本文主要工作总结如下: 提出了一种基于Cubic BoW的视频特征描述方法,把视觉上下文信息融入到视频特征描述当中。对于一个给定的视频镜头,对之在三维网格上进行采样,对于采样得到的点进行聚类,形成视觉词典,把每个采样点映射到特征空间离它最近的那个视觉词。这样,一个视频镜头就可以看作是一个由视觉词组成的立方体结构。然后,根据视觉词在立方体结构中的相对位置,把它们看做一个视觉词的序列,并用一个扩展的马尔科夫链对之进行建模。这样,视觉词在时空域中的关系可以用该模型中的状态转移矩阵进行描述,并和原始的Bag-of-Words特征结合,作为视频内容的特征描述,能够有效提高其区分不同内容视频的能力。我们把该特征应用到两个不同的问题中,即视频概念标注和动作识别,实验证明,本文方法能够取得较好的效果。 提出了一种两阶段的视频概念标注优化方法。一方面,分别利用星型结构和链式结构的Conditional Random Filed(CRF,条件随机场)对视频中的空域语义上下文和时域语义上下文进行建模,并借用其训练预测方法完成优化过程。和现有方法相比,本文方法能够更为准确地对概念之间的相互关系进行描述。由于利用了训练集中人工标注的语义信息,体现了人类对于视频内容和语义概念的理解,该方法能够有效提高概念标注的结果;另一方面,由于训练数据的局限性和问题本身的复杂性,基于语义上下文的优化方法不可能完美地对概念之间的关系进行建模,因此,提出一种基于半监督学习的调整方法,作为基于语义上下文优化方法的有效补充:认为得分较高的镜头被进行了正确的标注,通过在视频镜头之间建立图结构,利用视觉上的相似性,采用半监督学习的方法用概念标注中置信度较高的优化结果对其余结果进行调整,能够进一步提高视频概念标注的准确率。 提出了一种基于颜色聚类和多帧融合的视频文字识别方法。首先,在视频文字检测中,统一考虑了文字区域图像的两个明显特征:一致颜色和密集边缘,采用近邻传播聚类算法,基于图像中边缘颜色的复杂程度,自适应地把彩色边缘分解到多个边缘子图中,使得在各个子图中检测文字区域更加准确。其次,在视频文字增强中,根据文字笔画强度图,过滤掉模糊文字区域,并综合平均融合和最小值融合,对在不同视频帧中检测到的,包含相同内容的文字区域图像进行融合,能够得到背景更为简单,笔画更为清晰的文字区域图像。再次,在视频文字提取中,一方面,通过自适应地选取具有较高文字对比度的颜色分量进行二值化,能够得到比现有的方法更好的二值化结果;另一方面,基于图像中文字与背景的颜色差异,利用颜色聚类进行噪声去除,能够更为有效地提高文字识别率。