论文部分内容阅读
人体行为识别与预测是计算机视觉领域最有应用前景的研究方向之一,它的目的是利用计算机技术自动地识别和预测已经完成或正在进行的人类运动行为,包括个体行为、群体行为以及人与外界之间的交互行为。相关理论研究在智能监控、人机交互、运动分析、虚拟现实等方面具有广阔的应用前景和巨大的市场需求,因此受到来自工业界、学术界、商业界以及安全机构等领域的广泛关注。人体运动行为模式的研究将给人们带来全新的生活方式。 近年来,人体行为的描述方法层出不穷,其中基于时空兴趣点的行为表示方法最为流行,该方法简单可靠,对于噪声、遮挡以及几何变换都具有较强的稳定性。虽然基于时空兴趣点的识别方法已经取得了很大的进展,但是仍然存在一些急需解决的问题。时间顺序信息对于运动行为的描述十分重要,传统的时空兴趣点特征仅仅描述单一兴趣点特征,丢失了大量时间信息,挖掘描述性更强的底层特征是行为识别问题的基础。对于复杂背景下的运动行为,如何区分出目标特征和背景特征并且筛选出各个行为类别中具有较强代表性和区分性的特征仍然是一个开放性问题。另外,传统的行为识别问题主要针对完整的运动行为,如果目标视频是一个正在进行的尚未完成的运动行为,这就产生了行为分析领域的一个新的问题——行为预测。本文工作主要针对以上问题,提出解决方案,论文的主要工作和贡献如下: (1)提出一种基于线性动态系统的局部时空区域描述子。线性动态系统可以描述动态纹理变化,反映运动时间信息。根据这一特性,我们提出采用线性动态系统来描述时空兴趣点周围区域的特征。由于线性动态系统特征不存在于欧氏空间,所以我们利用核主角来度量线性动态系统特征之间的相似性,再采用多类别的谱聚类算法对视频中提取出的局部动态系统特征进行聚类,在BOW模型的基础上产生初始的词汇表。进一步,我们提出一种有监督的词汇表优化方法,通过扩大类间距离同时减小类内距离来保留各个类别中区分性较强的视觉单词并且抑制噪声。实验结果表明,相比于经典的梯度和光流特征,本文提出的基于线性动态系统的局部时空区域描述子可以获取视频中更多的时间信息,提高识别准确率。 (2)提出一种基于多字典稀疏表示的有监督分类方法。不同的行为类别含有不同的具有代表性的行为特征,传统的基于单一字典的稀疏表示模型不容易区分这些特征,因此我们提出基于多字典的稀疏表示模型,使得每个行为类别具有各自专属的词汇表。该模型通过在原有的基于L1范数稀疏表示基础上增加样本间的相似性约束项来获取类内行为的共性特征,通过增加不同类别字典之间的差异性约束项来区分不同类别行为之间的差异性。另一方面,我们提出分类损失函数,对多个字典进行同时优化,学习出对于各个类别具有代表性的行为字典。实验结果证明,基于多字典的稀疏表示模型对于分类问题更具有针对性。 (3)提出一种基于高层行为单元的行为表示方法和基于组稀疏的高层特征筛选方法。传统的底层特征对于复杂运动行为的描述存在局限性,我们在底层时空上下文特征的基础上,利用基于图模型的非负矩阵分解算法将一个完整的运动行为分解成多个简单的行为单元。我们认为来自同一类别的运动行为应该具有相似的行为单元,基于这个理论,我们提出基于L2,1范数组稀疏的行为单元筛选方法,保留各个类别中具有代表性的行为单元。实验结果证明,本文提出的基于行为单元的行为描述方法能够有效提高分类精度。 (4)提出基于带有时间权重的广义时间规整的行为预测算法。现有的大多数行为识别算法都是分析一段完整的人体行为视频,行为预测则是判断正在进行中的运动行为类别。不同于完整运动行为的识别问题,尚未完成的运动行为缺失很多运动特征,而且相对于完整行为的时间进展也是未知的。我们提出基于时间规整的算法,将不完整的行为视频与完整训练视频的前面部分做匹配,根据匹配误差,采用KNN算法来对待预测的运动行为做分类。实验结果证明,本文提出的带有时间权重的广义时间规整算法可以有效预测尚未完成的运动行为类别。