论文部分内容阅读
随着互联网的发展和视频设备的普及,电影、体育、新闻、视频监控等领域的视频内容爆炸性地增长。如何能够方便快捷地从海量视频数据中搜索到感兴趣的内容成为了一个亟待解决的问题。为此,视频中行为分析技术引起研究者们高度的重视。这是因为它能够识别以及定位视频中发生的事件,在智能监控、人机交互、虚拟现实和基于内容的视频检索以及医疗诊断等方面有着广泛的应用前景和潜在的经济价值,成为一个热点研究问题。尽管近几年研究者们做了大量的工作,但是仍然存在以下几个关键的技术问题:
●特征提取和融合。目前对于行为的描述存在很多不同的特征,例如静态视觉特征包括形状和表象,还有动态特征包括时空轨迹和运动光流。这些不同的特征都有各自的描述能力,并且互相之间能够补充和增强。而采用一些简单的融合方法很难挖掘不同异质特征的有效性,因此,如何融合不同的特征描述行为是行为分析的一个重要的基本问题。
●如何对不同的行为进行建模和相似性度量。我们知道不同的行为有不同的时间持续长度,并且不同的行为可能含有相似的成分。另外,即使是相同的行为,它们也可能存在差异。因此,行为的建模和度量是一个很困难的问题。
●如何根据有限的标签样本训练有效的行为模型。由于类内变化大,遮挡和背景复杂,使得行为识别是一个极具挑战性的任务。许多现有的工作都是基于统计学习的方法训练行为模型从而识别各种行为。为了实现较高的识别率,我们需要大量的有标签训练样本来训练好的行为模型。但是,人工标注大量的训练样本极其耗时并且繁重,而收集大量的无标签样本却是非常容易的事情(如网络)。因此,如何根据少量的标签数据和大量的无标签数据训练行为模型是一个极其关键的问题。
●如何分析交通场景中运动目标的行为。随着城市的发展和摄像头的普及,基于视频分析的智能交通管理系统越来越受到重视,并且变成一个热点研究领域。这种智能交通管理系统能够通过对视频数据处理分析,自动得到行人或者车辆的轨迹和方向等运动模式,从而对一些违反交通规则的异常事件进行自动报警,避免大量人工处理。然而,由于交通场景中运动目标种类较多和运动模式复杂,自动地识别各种目标的行为仍然是一个很有挑战性的问题。
本文中,针对上述几个问题,我们在模式识别、计算机视觉、多媒体、机器学习等技术方面做了以下研究工作:
(1)研究了基于多视角学习(Multi-view Learning)的方法融合多种特征。考虑到静态表象信息和动态运动信息这两个视角(特征)对行为的描述各有长短,我们采用一个基于Co-EM的多视角学习框架来代替传统的基于EM的单个视角学习方法。从而能弥补和增强每个视角的描述能力,使得基于多视角的视频描述能力超过每一个单视角。据我们所知,我们是第一个提出了基于Co-EM多视角学习的行为识别算法,并且获得了很好的结果。
(2)研究了提升例子学习(Boosted Exemplar Learning)的方法对行为建模和度量。首先,选取一些关键帧(候选例子),并对每个例子采用多示例学习(MultipleInstance hearning)的方法学习基于每个例子的分类器作为相似度度量,然后通过AdaBoost算法选取最有代表性的例子对行为进行建模。
(3)研究了提升多类半监督学习(Boosted Multi-class Semi-supervised Learning)的方法识别各种行为。本方法基于多类的AdaBoost.MH和Co-EM算法,试图从大量的无标签样本中挖掘有效的信息训练行为模型,从而减少了标签样本的数量。另外,为了避免高维度特征空间的问题,我们采用权重的多类判别分析将高维特征投影到一个低维的子空间来训练高斯混合模型,并且利用Boosting的策略,将这些子空间模型组合起来,从而能有效地对行为进行建模。
(4)研究了基于图模型的半监督多示例学习的视频事件检测。我们提出了一个新颖的基于图模型的半监督多实例学习(Graph-based Semi-Supervised Multiple-InstanceLearing,GSSMIL)算法对不同的视频数据(体育,新闻,电影,监控)的事件进行分析。该算法利用少量的有标签的样本和大量的无标签样本训练事件模型,从而解决了训练样本不足的问题。GSSMIL的一个关键问题是如何学习一个有效的相似度矩阵,为了解决这个问题,我们采用了多示例学习诱导相似度度量。
(5)研究了基于目标分类和轨迹聚类的语义场景模型学习方法分析各种行为。本工作,通过目标分类和轨迹聚类,我们提出了一个新颖的方法学习鲁棒的语义场景模型,从而分析目标的各种行为。为了避免人工标注大量的训练样本,我们采用协同训练(Co-Training)的学习方法用两种不同的特征训练两个分类器:基于判别分析的分类器和AdaBoost分类器。然后,对于每一类目标,我们对其轨迹采取基于空间分布的方法进行更精细的聚类。最后,基于学习的语义场景模型对运动目标的行为进行分析。
总的说来,本文针对视频中行为分析的关键技术做了有益的探索。