论文部分内容阅读
行为识别在智能监控、虚拟现实、视频检索、人机交互、客户类型、购物行为分析等现实生活中有着广泛的应用,但杂乱的背景、目标遮挡、光照和相机视点变化等因素都会影响行为识别的性能,因此开发性能优越的行为识别算法就有着迫切的需要。 本文主要是从特征融合方面对行为识别算法进行研究,主要工作有以下几个方面: (1)Hand-Crafted特征提取:在传统的行为识别方法中,基于密集轨迹的行为识别方法的性能尤为显著,故本文采用该方法中的Hand-Crafted特征对视频序列进行描述。具体的做法是:首先对连续的L(L=15)帧计算稠密光流,提取连续的运动轨迹,在运动轨迹上分别提取HOG、HOF、MBH特征,融合各个特征组成该视频段的时域特征Fh。 (2)深度学习CNN特征提取:因为深度学习模型可以通过样本进行特征学习从而具有比传统行为识别方法更好的优势,所以本文采用了一种双流的CNN网络结构进行视频序列的特征提取,双流是指空间流卷积神经网络和时间流卷积神经网络。具体作法是:首先,选用GoogLeNet网络结构进行参数设置;其次,把视频序列的RGB图像和光流图像分别作为输入送入空间和时间卷积神经网络进行训练。为了使模型具有更好的泛化能力,使用预训练模型来初始化网络模型的参数;为了防止过拟合,通过角裁剪,尺寸抖动的方式增加样本数量,降低过拟合风险;为了利用行为视频样本的局部时序结构,在时间轴上将视频按照序列长度进行分段处理;最后分别提取双流网络结构中Global_Pool层的输出作为视频序列的两个CNN特征Ft,Fsl。 (3)基于显著图的卷积神经网络CNN特征提取:因为拍摄的原因和人眼的视觉注意力机制,人体行为主要发生在视频图像中的显著区域内,所以计算出显著区域,对该显著区域内的行为进行描述可以消除背景的影响,更好地描述行为特征,因此文本使用视频目标分割的显著性检测方法得到视频的显著性图,把显著图的送入空间卷积网络进行训练,得到空间显著图卷积网络模型,然后提取Global_Pool层的输出作为视频序列的显著性CNN特征Fs2 (4)基于特征融合的行为识别方法,本文将Hand-Crafted特征Fh和深度学习的CNN特征Ft,Fs1,Fs2两种不同模态的特征进行融合,把融合的特征使用SVM进行分类器学习,最后进行行为识别。 使用数据集UCF101对本文的方法进行了实验,首先,对于空间卷积神经网络的两种不同输入,RGB输入和显著图输入的结果分别是82.7%和80.67%,显著图的结果略差于RGB输入的结果,但是因为显著图在处理过程中集中在了显著区域,所以在模型训练的过程中,降低了计算量,提升了训练速率。因此本实验采用基于显著图的空间卷积神经网络提取的CNN特征Fs2和时间卷积神经网络提取的CNN特征Ft与Hand-Crafted特征Fh进行融合。实验结果为:基于特征融合的行为识别方法的实验结果准确率为94.35%,相比于基于密集轨迹行为识别方法的准确率82%,提升了12.35%。与基于双流卷积神经网络的行为识别方法的准确率93.73%,提升了0.62%。因此,本文基于特征融合的方法可应用于行为识别领域。