论文部分内容阅读
目标跟踪在计算机视觉领域有十分广阔的应用背景,其任务是在视频序列初始帧给定目标初始状态及外观特征,在后续的帧图像中预测此目标物体的状态并标记出来其所在的位置及其形状。目标跟踪是一个具有多种挑战性的研究方向,一些难题诸如遮挡、尺度变化、快速运动等仍然不能够十分可靠地解决,而且模型和算法的实时性和跟踪准确性仍然难以兼顾,因此对跟踪模型的更进一步的深入研究仍旧势在必行。自从基于全卷积孪生网络模型全连接孪生网络(Fully-Connected Siamese Network,SiamFC)问世以来,以孪生网络为框架的目标跟踪模型进入了研究的高潮,满足了其他模型结构不容易满足的实时性要求。类孪生区域生成网络(Siamese Region Proposal Network,SiamRPN)虽然在目标的定位和尺度预测方面有了很大的性能进步,但特征融合机制仍然不能满足模型的通用性需求,而且仍然缺少在线跟踪更新机制,并不能在目标外观剧烈变化的情境下展现十分鲁棒的性能。针对现有的孪生网络跟踪器存在的不足,本研究提出了基于MobileNet V2骨架的新模型,创新点如下:(1)将常用的AlexNet特征提取骨架换为用于更深层且轻量化的类MobileNetV2结构,并引入深度特征和通道特征注意力模型,即在此基础上加入了深度特征注意力融合方式和通道特征注意力的RPN结构,即用更深的网络和更加丰富的深度特征信息以及更有说服力的通道相关信息增强网络模型的表征性能,融合多个深度特征和不同通道相关的特征;此外为了增加深层特征的感受野,防止步长和边缘填充破坏图像的重要信息,所用骨架在原有MobileNetV2基础上也进行了修改,对步长和扩张率做出了调整。(2)为了增强跟踪器对于特定目标的外观通用性,提升对剧烈外观变化的目标的适应能力,提出了双模板的孪生网络结构,即在基于深度和通道的基础上再基于时间将不同模板、不同深度特征的跟踪结果进行有效融合。此外,本研究优化了长时跟踪的算法并提出了模板更新的方式,使跟踪器能够更好地适应目标变化的外观和状态。为了验证所提出跟踪模型的性能,构建了基于特征注意力和模板注意力的孪生网络框架,模型使用YouTube-BB进行网络参数预训练,并在测试过程中保持参数;测试数据集选用OTB100。结果表明了此研究所提出的模型和跟踪算法与其比较的深度网络和相关滤波模型相比,在不降低跟踪速度的前提下具有更强的鲁棒性。此论文共有图19个,表9个,引用参考文献85篇。