论文部分内容阅读
近年来计算机与信息技术飞速发展,伴随而来的是图像、视频等信息数据的增长,同时促进了计算机视觉与人工智能等领域的发展。视频目标跟踪技术作为计算机视觉领域的一大研究热点,在智能视频监控、人机交互和智能安防等应用中都有十分良好的发展前景。视频目标跟踪的主要任务是对视频中感兴趣的目标进行持续并准确地定位。虽然目前在视频目标跟踪领域的研究已取得一定成果,但是由于实际场景中环境的复杂与多变性、目标间不可避免的交互与遮挡问题以及目标自身的尺度变化等因素,使视频目标跟踪技术离实际应用还有一定的距离。因此,视频目标跟踪技术具有很大的研究价值。人类作为社会的主体,是视频目标跟踪领域的重要研究对象,然而在具体的视频场景中通常不止一个行人,所以本文研究的是多行人跟踪。由于基于稀疏编码的目标描述子对部分遮挡的目标具有鲁棒性,因此,本文引入了稀疏表示模型对目标进行描述,并提出了基于特征稀疏表示的多行人跟踪算法。为了更好地区别目标与背景,针对每个目标构建一个基于稀疏表示的分类器。而对视频中每个行人的跟踪则会利用分类器,并采用基于贝叶斯推理的跟踪方法,将目标状态的最优估计作为跟踪结果输出。最后通过一个集成框架将多个单目标跟踪器整合在一起,从而实现多行人跟踪。对于目标的描述,主要是利用构建的过完备字典,提取目标的联合特征(灰度特征、HOG特征和LBP特征)并对其进行稀疏分解,用联合特征的稀疏系数作为目标的描述子。而行人在场景中从出现到消失的过程则需对行人目标进行持续地定位以完成跟踪:首先对应每个目标构建其外观模型,包括过完备字典以及分类器的构建。当新的图像帧到来时,采用基于贝叶斯推理的方法估计目标的最优状态。对于每个目标而言,都会对应一个独立的跟踪器对其进行跟踪。而本文研究的是多行人跟踪,因此本文设计了一个集成框架将多个单目标跟踪器整合在一起。在这个跟踪框架下,主要对多个单目标跟踪器确定行人的起点和终点,以及关联对应不同帧的行人。独立跟踪器中行人的起点和终点主要以每帧的行人检测结果作为依据进行进一步判断;不同帧行人的关联则是利用分类器,解决检测结果与多个跟踪目标间的数据关联问题。为了验证本文算法的有效性,我们分别在PETS09 S2L1,Town Center和Parking Lot三个标准数据集上进行验证。实验结果表明,本文提出的基于特征稀疏表示的多行人跟踪算法具有较好的跟踪效果。