论文部分内容阅读
基于视频的人体行为识别在人机交互、视频分析和社会公共安全等应用中具有广泛的发展前景与潜在的商业价值,使得它成为计算机视觉领域的一个热点话题。人体行为识别的主要任务是通过分析和处理图像序列,学习和理解人体行为。人体行为识别主要涉及两个方面的研究:行为表示和行为分类。行为表示即为从视频中提取有效的特征来表示人体的行为,而行为分类则是利用训练视频中提取到的有效特征构建分类器模型,从而完成对测试视频的行为识别。行为表示主要有3类方法:基于人体模型的方法、基于全局特征的方法和基于局部特征的方法。目前比较流行的将局部特征与词袋模型相结合的表示方法在行为识别中取得了较好的结果。人体行为识别的首要任务是行为表示即视频特征的提取与描述,它们对识别的结果有至关重要的影响。为此,本文的研究主要关注视频特征的提取与描述,包括基于多层特征融合的人体行为识别和基于骨架的人体行为识别两个部分工作。在基于多层特征融合的人体行为识别中,提出了一个有效的多层特征融合的描述子。该描述子将底层特征(包含有轨迹特征,光流特征和SIFT特征)和中层特征进行融合形成本文行为识别的特征,然后使用支持向量机(SVM)对人体行为进行识别。在底层特征提取阶段,我们提取了轨迹,光流和SIFT三种特征。受目前流行的稠密轨迹在图像识别中的启发,我们将它引用到人体行为识别中,通过在光流场中跟踪稠密采样点获得轨迹。因为梯度直方图(HOG)和运动边界直方图(MBH)两种描述符在多个视频库中都取得较好的识别效果,所以本文将这两描述符应用到轨迹的描述中。为了更准确全面地描述行为以取得更好的识别结果,本文还提取了光流特征和对背景噪声保持一定程度稳定性的SIFT特征。在中层特征提取阶段,我们观察到一些不同类型的人体行为有时候看起来非常相似,而不同行为类之间的这种相似关系有助于提高行为识别的准确率。基于此,本文引入了中层特征,通过计算视频与不同行为之间的相似关系来描述中层特征。中层特征的计算过程中,首先,用每一种特征对每一类行为训练一个SVM模型,然后分别计算每个视频用上述提取到的五种底层特征表示时属于每个行为类的概率以此得到中层特征。在特征层融合阶段,本文利用特征层融合方法进行特征融合即直接将上述提取的五种底层特征和中层特征向量级联形成维度更高的特征向量。在基于骨架的人体行为识别中,首先对实验所用的视频库进行分析,发现视频中背景变化相对较少,利用背景差分法就能很好地检测出视频中的人体。然后通过细化人体图像方法得到人体的骨架,为了描述骨架信息,本文使用了Hu矩描述符,并根据词袋模型思想,利用视觉单词的频率直方图表示每一个视频的底层特征,最后再计算中层特征,并将底层和中层特征进行融合形成的特征送入到SVM分类器中进而完成人体识别。为了验证本文提出的方法的有效性,我们分别在标准的视频库UCF Sports、KTH和CASIA视频库中进行验证。实验表明,本文提出的方法获得了优于其他方法的识别结果。