论文部分内容阅读
基于稀疏表示的L1跟踪方法近年来在视觉跟踪中获得了较大的成功.但其直接使用视额序列各帧内的像素值对模板和目标候选进行表示,而没有考虑到各图像块内部的深度特征信息.发现,在固定摄像头的视频监控场景中,通常可以找到一块区域,该区域中目标物体具有清晰、易于分辨的表观.本文在各视频场景内事先选定一块可以清晰分辨目标表观的参考区域用以构造训练样本,并构建了一个两路对称且权值共享的深度卷积神经网络.该深度网络使得参考区域外目标的输出特征尽可能与参考区域内目标的输出特征相似,以获得参考区域内目标良好表征的特性.最后在L1跟踪框架下使用训练好的深度网培提取目标候选的特征进行稀疏表示,从而获得跟踪过程中应对遮挡,光照变化等问题的鲁棒性.本文在8个行人视频中与当前国际上流行的9种方法对比,结果显示本文提出的方法优于这些已有的跟踪系统.