论文部分内容阅读
视频行为识别是近年来计算机视觉的研究热点之一,它在智能监控、虚拟现实、医疗看护、机器人视觉、人机交互等众多领域有着广泛的应用前景。为了深入挖掘时空上下文信息,本文提出基于时空上下文建模的行为识别方法。首先利用双向时空建模提取双向时空行为特征描述,其次利用自适应时间金字塔提取多粒度时空行为特征描述,为了弥补以上两个特征描述在空间位置上信息的缺失,使用视觉特征与轨迹特征相结合的方法编码更多空间位置信息,最后使用自适应融合方法融合上述多个时空模型进行行为识别。主要研究工作如下:(1)针对现有流行的行为识别方法难以捕获鲁棒的双向时空上下文信息,导致当前帧的描述只注重前面帧对它的影响,而忽略了后面帧作用的问题,提出了一种基于双向长短时记忆单元(Bi-directional Long Short Term Memory,Bi-LSTM)的双向时空特征描述。该方法首先将VGG16卷积神经网络修改应用到视频行为识别问题上,并对原始视频帧进行裁剪、翻转操作,从而进一步提升网络性能。然后使用该网络提取鲁棒的深度特征,并输入到Bi-LSTM中获取双向时空上下文特征,最后利用Softmax进行分类识别。实验结果表明,双向时空建模方法可以有效地提取鲁棒的双向时空上下文信息,显著地提升行为识别的准确率。(2)针对大多现有方法只在一个时间粒度上建立时空模型,导致提取到的特征无法兼顾全局信息和局部信息的问题,提出基于多层自适应时间金字塔的多粒度时空特征描述。该方法首先利用卷积网络提取视频序列的全连接层特征,并根据时间金字塔的思想,采用改进的自适应时间金字塔划分方式,按照能量自适应地将视频划分成不同长度的时间片段,重点突出能量变化剧烈的时间段,关注短时变化剧烈的行为。然后分别对各时段内提取到的特征进行傅里叶变换,将多层特征表达融合形成最后的特征表达。实验结果表明,该特征描述可以有效表征多粒度时空上下文信息,兼顾长短时特征,并能够更好地应对具有剧烈变化的行为。(3)针对单个模型无法充分表达复杂的行为时空结构,导致模型表达能力不足的问题,提出使用自适应融合方法融合多个模型进行行为识别。首先,为了弥补以上两个时空特征描述提取的空间位置信息的不足,使用了视觉特征与轨迹特征融合的方法加强空间信息。最后为了充分利用各个时空特征各自的优点,对不同特征表达进行后融合,利用行为类别之间的联系引导权重参数的学习,自适应赋予各方法不同的权重。在UCF-101和HMDB-51数据集上的实验表明通过自适应融合方法,可以充分利用各模型的优势,取得优于单一模型的性能。