论文部分内容阅读
基于当今时代维护社会安全的迫切需要,国内外学者对视频监控技术的研究广泛兴起。一般,基于人力的视频监控过程需要观察者的连续监控,由于信息的稀疏性以及人类难以长时间保持注意力集中,在视频监控工作中,人类观察者在观察中可能会多次错过导致各种安全问题的重要事件。因此,视频监控技术正在朝视频分析的方向发展,即应用计算机对视频流进行自动分析。使用视频分析技术自动分析行人行为是当前重要研究方向。本研究对此进行了相关调研,并在此基础上,提出在监控系统中利用深度学习技术自动识别行人属性的行为分析解决方案。本研究提出了五个重要行人属性,并基于该属性自动描述人类行为。这些属性包括(a)行人的全身朝向(行人移动方向),(b)行人的注意力方向/头部姿态估计(行人观察方向),(c)摄像机视野(FOV)中行人的距离和尺寸(高度和宽度),(d)行人存在的识别,以及(e)行人的性别识别(男性或女性)。(1)行人行动方向和意图预测。预测行人的行动方向和意图已经成为人类行动认知的主要应用之一。在移动过程中,行人具有多种可能的视觉注意方向。应用计算机视觉对行人的行动方向和意图进行预测是对行人的行为研究的主要手段。本文提出利用深度学习方法对行人头部姿态和全身方向进行估计。基于两个拥有八方向视角的数据集分别训练卷积神经网络模型,实现方向预测。本研究在现有数据集和各种场景下实际拍摄的视频序列数据集上进行测试实验。实验结果表明,本文所提出的方法成功估计了各种环境中的行人头部姿态和身体视角。(2)行人分类。基于计算机视觉的行人分类已经成为多年来的热点问题。行人识别方法主要分为基于传统方法的行人分类方法和基于神经网络的行人分类方法。本研究利用堆栈式稀疏自动编码器提取包含行人对象的特征,通过图流形排序方法借助SLIC超像素迭代生成包含行人图像的突出特征地图,然后输入到堆栈式稀疏自动编码器。最后,将利用堆栈式自动编码器得到重建的数据传递到Softmax分类器中进行分类。(3)行人尺度度量。在许多情况下,需要在实时环境中对摄像机中的行人进行距离和尺寸计算。高效、方便的非接触距离估计方法是行人尺度估计的主要方法。本研究提出基于数学变换的单目摄像机视野内的行人对象距离和尺度度量方法。在估测之前,根据环境采用单次拍摄学习来调整摄像机。对于单次拍摄学习,首先将L形标记放置在最小距离处,之后再放在距摄像机一般远的距离处。在两个放置处计算标记的角点,并通过线性方程估测对象放置处的每个像素长度。再通过基于平均滤波器的背景减除策略获得前景运动对象,然后利用基于卷积神经网络的分类器将其预测为行人和非行人。最后,借助在单次学习步骤中读取的数据估测行人的距离和尺寸。(4)行人性别预测。行人的性别是一个软属性,在计算机视觉的许多领域具有较普遍的应用价值。目前,行人性别预测在计算机视觉中面临巨大挑战。本研究提出了基于深度学习的行人性别分类方法。在预处理阶段,通过现有的深层分解神经网络方法对行人进行解析,将该网络的输出二进制掩码应用于图像中,将其映射为行人全身图像。最后将其传递到带softmax分类器的堆栈式自动编码器中进行分类。另外,本研究提出另一种基于深度卷积神经网络的方法分析行人性别。首先,借助于现有的深层分解神经网络方法,生成行人解析图像。然后将无背景的解析图像划分为全身和上身图像,分别输入到用于性别预测的卷积神经网络模型,实现行人性别分类。基于视频数据的实验结果表明,相比于现有方法,本研究所提出的视频监控行人识别方法具有较高的鲁棒性和适用性。