论文部分内容阅读
视频人体动作识别是计算机视觉一个活跃的研究领域,在基于内容的视频检索和理解、公共场所的智能监控以及高级人机交互等领域具有重要的应用价值。
视频人体动作识别(Human Action Recognition)指用一组动作标签对视频中的人体动作进行自动标注的过程。早期主要针对有约束视频(Constrained Video),即专门为科学研究在实验室环境中拍摄的视频。近年来,研究者将注意力转向无约束视频(Unconstrained Video),包括电影电视节目、监控视频以及业余摄像者拍摄的各种生活视频。相对有约束视频,无约束视频中背景干扰强,对运动主体的分割和跟踪更加困难,同类动作的类内差异大,给视频动作识别带来了新的挑战。面向无约束视频人体动作识别的研究对于推动该领域研究从实验室走向实际应用起着非常重要的作用。
然而,现有的视频动作识别方法大多面向有约束视频,针对复杂背景滤除的研究较少,视频的表示方法可扩展性不强,分类算法相对简单。为提高无约束视频动作识别的准确率,本文对复杂背景的滤除、视频的表示和分类算法等关键问题进行了深入研究,取得了如下研究成果:
1基于隐式运动模型的复杂背景滤除方法
为消除无约束视频中复杂运动背景对人体动作识别的干扰,本文提出了一种基于隐式运动模型的复杂背景滤除方法,利用局部特征位置信息有效地区分视频中的运动主体和背景。该模型采用非参数的方式记录局部特征原型相对于动作中心的位置分布,将测试视频中的局部特征和原型进行匹配,获得动作目标的位置,并以“软分类”的方式计算反映每个局部特征重要性的权重,以滤除背景上的局部特征噪声。实验表明,该方法能够在一定程度上克服视频中的背景干扰,使动作识别准确率提高达5.8%。
2基于混合高斯模型的视频表示方法
广泛采用的基于词袋(Bag of Words,BoW)的视频表示方法存在信息丢失和词表依赖等缺陷,导致其不适合复杂多样的无约束视频。针对该问题,本文提出了一种基于混合高斯模型的视频表示方法,将视频的局部特征集合所包含的信息拟合成一个在局部特征空间上的概率分布。在此基础上,引入基于信息理论的距离度量方法,提出了基于Kullback-Leibler距离和Jensen-Shannon距离的视频距离度量方法。实验结果表明,本方法能够很好地保留特征空间的连续性,一定程度地减少信息丢失,使识别准确率提高达6.7%。此外,由于本方法无需任何全局信息,相对于传统方法,更适合于无约束视频。
3基于局部多核分类器集成的人体动作识别方法
针对无约束视频中类内差异大的问题,本文提出了一种局部多核分类器集成的人体动作识别方法,将分类器集成的思想和多核学习融合成一个整体。为充分利用多特征之间的互补性,该方法首先建立一种子空间模型,将多特征样本空间划分成一组子空间,并在每个子空间上学习一个多核分类器,最后基于子空间模型对多个局部分类器进行集成。实验结果表明,本方法能有效解决无约束视频类内差异大的问题,并充分发挥多特征的优势,在不同无约束视频测试集上准确率提高达5%~11.7%。
综上所述,本文在分析目前无约束视频人体动作识别研究中存在问题的基础上,对背景滤除、视频的表示方法和分类算法等关键问题提出了解决方法,提高了人体动作识别的准确率,研究成果对视频运动分析具有重要的参考价值。