论文部分内容阅读
基于视频的行为识别是计算机视觉领域研究的热门课题,在视频监控、人机交互、视频信息检索、智能驾驶等众多领域都有着广泛的应用前景。随着近些年来互联网上各种视频数据呈现爆炸式的增长,如何对视频数据实现有效的、智能的理解与分析十分关键。传统的方法只采用人工提取特征的方式具有很多局限性,不适用于海量的视频数据,而深度学习的方法特别是深度卷积神经网络在这一领域研究中取得巨大进展。行为识别问题研究的目标是识别理解视频中人的动作,并输出对应的标签。在视频数据中的动作,除了包含二维图像中存在的空间信息,还增加了行为的时序信息。由于行为本身的复杂性、视角变化、背景噪声等客观因素,如何高效、准确、全面地提取出行为的时空特征,设计出合理、有效的网络结构仍然是目前面临的挑战。为了解决上述问题,本文设计一种基于多模态特征学习的网络,用于视频中的行为识别。传统的双流法通过RGB图像提取空间特征,通过光流提取时序特征,但是这种方法中时间维度信息只能依靠手工提取。所以为了更充分的提取时空特征,本文在双流法的基础上,增加了改进的三维残差卷积神经网络,将二维空间网络学习的空间特征、二维时间网络学习的时序特征以及改进的三维网络学习的时序特征进行类别分数的加权融合。基于对远程时间结构建模的思想,它通过稀疏采样的方式,避免大量时空信息冗余。在三维残差卷积神经网络中,将3×3×3卷积分解为1×3×3和3×1×1卷积,相当于在二维卷积的基础上又增加了一维对时间信息的提取,并且使用全局平均池化代替全连接层,有效减少模型参数量。利用这种对多模态特征学习的方法,可以有效提高模型的识别性能。本文在两种常用数据集(HMDB-51和UCF-101)上进行实验验证。通过数据增强、交叉输入模式预训练等方法进行网络训练,降低模型过拟合的风险。实验结果表明,本文提出的方法能够有效提高识别准确度,在两个数据集上具有较好的识别效果。