论文部分内容阅读
视频分析是视频内容的语义理解,它是一个综合性的任务,在视频监控、赛事分析、智能视频检索、人机交互等领域有着广泛的应用。群体行为分析对于有效理解视频内容具有非常重要的意义,也是近年来视频分析领域的研究热点。群体行为是个体行为以及个体间的交互关系的综合表达,因此个体特征表达是群体行为分析的基础。论文围绕群体行为识别任务,在目标检测、目标跟踪、群体行为识别等方面开展研究,具体内容如下:首先,基于锚框(anchor)的目标检测算法存在计算复杂度高、实时性差等缺点,而且离散的锚框存在不能在连续尺度范围内覆盖物体区域等问题。针对上述问题,有研究者通过分配多个离散的锚框来检测具有多个尺度的物体。然而,离散锚框不能覆盖连续尺度范围内所有物体,因而导致性能不稳定。有人试图引入更深更宽的CNN网络和密集的锚框采样策略,在性能提升的同时,也带来了更大的内存空间需求和更低的速度。实际上,研究已经证明可以将CNN输出特征图中的特征点直接映射到原始输入图像,形成对应感受野(RF)。此外,不同级别网络层输出特征图对应的RF能够覆盖特定大小范围。具有相同大小RF的神经元可以预测一定范围内的连续尺度物体,而不是离散尺度,RF可以看成天然的锚框。以此为基础,本文提出了一种基于感受野锚框Ommateum结构的快速特定类别物体检测方法(OS-LFD:Light and Fast Detector with Ommateum Structure)。通过分析有效感受野(ERF)与物体尺度之间的相关性,设计了一个4支路网络来覆盖连续尺度范围的物体。进一步,在每个网络支路设计一个具有相似结构且参数共享的ommateum模块,有效降低了参数数量。实验结果表明,本文提出的OS-LFD方法以较小模型和较快速度实现较高精度目标检测,可以很好地平衡检测精度和运行速度。其次,提出时空域结构感知校准网络(STSAR-Net)的目标跟踪算法,网络能够利用序列模型GRU学习物体内部结构间的依赖关系,对于相似的干扰目标很有判别性,且几乎不增加任何参数量。另外,设计了一个基于LSTM回归模型的时空域校准层,结合目标历史信息进行联合推断,并且在拓展的时空域内对跟踪结果进行校准,能够有效地缓解由遮挡和形变等问题引发的目标丢失问题。对比实验结果表明,提出方法能够达到性能最优。最后,提出一种融合时空注意力和多特征关系表达的群体行为识别算法。首先,将目标表观特征、运动特征和关系特征同时用于视频帧特征表达。其次,为了提取有效的运动特征,用动作损失作为监督信号来微调光流网络。进一步,提出两种类型的推理模型:opt-GRU和relational-GRU,用于有效地编码物体关系和运动表达,并形成可区分的帧级特征表达。最后,提出了一种基于注意力的时域聚合层,将帧级特征加权融合推断群体行为。实验结果表明,各模块都可以有效提升群体行为识别性能。