论文部分内容阅读
过去十年中,视频中的动作识别一直是计算机视觉领域非常热门的研究课题。目前,最成功的动作识别方法大多为基于局部特征的方法,这些方法有类似的思想,也就是将视频表示为局部特征的集合。这类方法能够归纳为一个统一的动作识别框架,包含几个关键步骤:局部特征提取、特征编码、特征汇集以及分类器学习。通过特征的编码和汇集,局部特征集合中的特征向量被聚合为单一的视频向量表示。 在很长一段时期,向量量化编码是动作识别领域中的通行做法,量化编码之后进行平均汇集即得到视觉单词直方图表示。由于向量量化编码有一些明显的缺点,如量化误差大、需要较大的视觉单词码本,一些在图像分类领域被发明的非常有效的特征编码方法被应用到动作识别领域,如费舍尔向量(Fisher Vector,FV)和局部聚集描述子向量(Vector of Locally Aggregated Descriptors,VLAD)。根据其他研究者全面的验证和比较,FV被认为是视觉分类领域最优秀的特征编码方法。 李代数高斯表示(Lie Algebrized Gaussians,LAG)是一种新近被提出的特征聚合方法。本文通过研究LAG和其他特征聚合方法,提出了一种非常有效的改进LAG性能的技术。在 LAG特征聚合方法中,从一个视频样本中提取出的局部特征被用来训练一个高斯混合模型(Gaussian Mixture Model,GMM),该样本GMM的参数基于一个全局GMM通过最大后验估计得到。然后基于李群论,样本GMM被编码为一个向量作为视频的向量表示,也称之为GMM向量化。尽管LAG和FV得自于完全不同的理论,通过对LAG进行一步近似推导和适当的代数变形,可以发现LAG与FV有非常类似的形式,表达了局部特征非常类似的信息。基于这个重要的发现,其他研究者提出的用来改进FV的幂归一化和二范数归一化操作应该对LAG同样有效。理论上的分析和实验结果均验证了这一猜想。实验结果表明,在均进行幂归一化和二范数归一化操作后,LAG要优于FV。 针对基于时空兴趣点和视觉单词直方图的动作识别方法的缺点,充分利用 LAG的优势,本文提出了一种新的基于密集采样和 LAG的动作识别方法。首先,提取视频各帧中的兴趣区域(Region of Interest,ROI),ROI也就是动作发生的区域。然后,对视频进行限制在 ROI内的多尺度密集采样,提取局部特征。为了描述局部特征在ROI内的空间分布信息,通过添加局部特征块相对于ROI的归一化位置坐标来对局部特征向量进行增强,理论分析说明了这种做法在 LAG框架下是合理的。接下来,基于坐标增强后的局部特征向量构建视频的LAG向量。最后,采用线性支持向量机对视频的LAG向量进行分类。在这个动作识别方法中,ROI的提取和局部特征描述子可以根据具体应用进行选择。一种可行的ROI提取方法是利用现有的人体检测和跟踪算法提取视频中各帧图像的ROI,对于特征描述子,三维梯度方向直方图是一个很好的选择,它能够同时描述表观信息和运动信息。实验结果证实了该动作识别方法的有效性。 为了利用视频中局部特征的时空分布信息来提高动作识别效果,本文基于LAG提出了一种新的时空布局建模方法。在动作识别中一种常用的描述时空布局的方法是时空金字塔法(Spatio-TemporalPyramid,STP)。在STP中,视频的三维时空空间被划分为若干单元,对每一个单元分别计算单元内的局部特征的概率分布。本文提出的方法基于与STP方法相反的思想。首先,对于一个视频样本,用GMM对从中提取出的局部特征的概率密度进行建模。该GMM实际上提供了对特征向量空间的一个软划分,对于特征空间的每一个单元(对应于每一个高斯成分),对软指派到该单元的局部特征的时空位置同样采用GMM对其概率密度进行建模。同样基于LAG对这些时空位置GMM进行编码,得到的向量称之为时空LAG(Spatio-Temporal LAG,STLAG)。实验结果表明,相较于STP方法,STLAG更加有效,并且STLAG产生的视频向量表示更加紧凑。与基础特征的LAG向量组合在一起,STLAG能够显著提升动作识别的效果。