论文部分内容阅读
计算机视觉和自然语言处理是人工智能领域的研究热点,在实际的生产生活中有着广泛的应用,比如人脸识别、机器翻译等技术。随着深度神经网络研究的深入,尤其是卷积神经网络在计算机视觉领域以及循环神经网络在自然语言处理领域取得了重大的突破,很多结合计算机视觉以及自然语言处理的任务如视频语义描述等为人机交互提供了更多的可能性。近年来,结合了上述两种任务的基于文字描述的单目标跟踪任务,其研究也受到了广泛地关注,但是由于自然语言在描述视频时有着局限性,导致该任务的进展缓慢,本文提出一种基于文字描述约束的单目标跟踪算法并为之设计了训练方式。本文的主要研究内容如下:
单目标跟踪任务需要根据第一帧中给定的目标,预测视频序列后续帧中的目标位置。然而自然语言可以描述目标在第一帧的初始状态,或者在整段视频中整体的运动状态。而且,带有文字标注的目标跟踪数据集通常描述目标在一段视频中目标整体的运动状态而忽略目标在特定帧中的状态,因此文字标注难以作为跟踪任务的全局约束。而且描述视频中每一帧中目标的状态不仅标注数据集的工作量大,且在实际生产生活中也无法实现。为解决上述问题,本文提出了基于循环神经网络的文字特征更新模块,利用深度视觉特征对编码后的文字特征进行更新,以期望目标在运动过程中发生位移、形变等变化后文字特征能相应地有所改变,以约束跟踪算法预测目标的位置。
基于深度学习的单目标跟踪算法在训练阶段通常不考虑视频的时序问题,通过随机采样正负样本遍历训练集中的每一帧并组成批次进行训练。将文字描述作为全局约束的相关工作也可以采用上述的训练方式。采用基于循环神经网络的文字特征更新模块约束单目标跟踪任务需重新设计训练方式:将一段视频分割成长度相同的特定数量片段作为批次数据,采用每个片段的第一帧作为更新模块的输入,以期望改变作为循环神经网络隐状态的深度文字特征。本文在两个含有文字标注的单目标跟踪数据集LaSOT以及LingualOTB数据集上进行了充分实验,证明了本文所提出的文字特征更新模块能提升基于文字描述的单目标跟踪算法的精度。
单目标跟踪任务需要根据第一帧中给定的目标,预测视频序列后续帧中的目标位置。然而自然语言可以描述目标在第一帧的初始状态,或者在整段视频中整体的运动状态。而且,带有文字标注的目标跟踪数据集通常描述目标在一段视频中目标整体的运动状态而忽略目标在特定帧中的状态,因此文字标注难以作为跟踪任务的全局约束。而且描述视频中每一帧中目标的状态不仅标注数据集的工作量大,且在实际生产生活中也无法实现。为解决上述问题,本文提出了基于循环神经网络的文字特征更新模块,利用深度视觉特征对编码后的文字特征进行更新,以期望目标在运动过程中发生位移、形变等变化后文字特征能相应地有所改变,以约束跟踪算法预测目标的位置。
基于深度学习的单目标跟踪算法在训练阶段通常不考虑视频的时序问题,通过随机采样正负样本遍历训练集中的每一帧并组成批次进行训练。将文字描述作为全局约束的相关工作也可以采用上述的训练方式。采用基于循环神经网络的文字特征更新模块约束单目标跟踪任务需重新设计训练方式:将一段视频分割成长度相同的特定数量片段作为批次数据,采用每个片段的第一帧作为更新模块的输入,以期望改变作为循环神经网络隐状态的深度文字特征。本文在两个含有文字标注的单目标跟踪数据集LaSOT以及LingualOTB数据集上进行了充分实验,证明了本文所提出的文字特征更新模块能提升基于文字描述的单目标跟踪算法的精度。