论文部分内容阅读
在线单目标跟踪是人工智能和计算视觉领域中很重要的子课题,广泛应用于视频目标检测和监控、医学图像理解分析、智能人机交互等领域。通常情况下,在视频序列的第一帧给定准确的目标框,随后帧中自适应地跟踪该目标。在跟踪过程中,视频序列存在着目标遮挡、背景杂乱、目标尺度剧烈变化等挑战,关于如何克服这些挑战学者们提出过很多优秀的算法。我们在本文通过深度卷积神经网络提取跟踪目标的语义特征,进而提出了鲁棒的跟踪算法。深度神经网络在图像分类、物体检测和图像分割上取得了成功,我们发现简单地堆叠层结构并不能带来更好的结果,这样会导致梯度弥散。残差网络通过恒等映射大幅提升了网络层数,并且解决了梯度后向传播困难这一难题。文中分析了网络模型深度、优化方法和模型结构对网络泛化能力的影响,提出了随机网络深度机制来跳过残差层连接,这样升级网络结构不仅节省了训练时间并且获得了更好的效果。同时我们使用了SparkNet平台实现特征的并行计算,通过不同计算节点实现大规模的图像分类和图像检索的任务。我们分析不同深度的网络层、优化方式对模型的影响,提出了对偶网络自适应跟踪物体。在深度神经网络中,我们利用网络不同层描绘不同信息的先验来学习目标的外观信息,网络训练和更新上采用新颖的数据增广和自监督的学习方式,实现了双层对偶深度模型来跟踪目标。网络高层特征描绘物体的语义信息,低层描绘空间结构信息。为了更好地突出物体轮廓和形状,我们将分层的特征图与拉普拉斯高斯边缘检测子结合,并利用独立子成分分析来描绘物体形状。对偶网络在训练时采用中心偏移的随机块用于增广训练数据,更新时基于跟踪目标在连续帧之间有更多的相似性。在线跟踪将深度特征融入运动模型和外观模型上,随机和周期的更新机制用于解决目标偏移和遮挡问题。跟踪算法的实验是在大规模公开的数据集上进行评测,并参加了针对该任务的竞赛。在网络模型上比较不同的层连接和优化方法对结果的影响,在目标跟踪上采用了大规模具有挑战性的视频序列对本文算法进行定性和定量的评估,与大量当前的优秀算法进行对比,我们的方法取得了满意的效果。