论文部分内容阅读
近年来,随着人工智能(Artificial Intelligence,AI)的快速发展,视频语义描述任务(Video Captioning)成为人工智能领域的研究热点。视频语义描述,是指利用相关算法,通过给定的视频片段,生成正确连贯的自然语句来描述该视频片段的内容。视频语义描述任务涉及了计算机视觉领域(Computer Vision,CV)和自然语言处理领域(Natural Language Processing,NLP),在实际生活中有着广泛的应用前景,例如,可以应用视频语义描述发掘视频语义信息,从而促进视频检索的质量。随着卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Networks,RNN)分别在CV领域和NLP领域的成功,基于“CNN-RNN”的“编码器-解码器(Encoder-Decoder)”结构在视频语义描述任务中被广泛使用。然而这种结构仅使用了视频内容信息指向的语言描述信息的前向信息,而忽略了语言描述信息指向的视频内容信息的反向信息,因此性能难以进一步提升。为了同时利用这种双向信息,本文在“编码器-解码器”结构的基础上,提出了一种新型网络结构,即“编码器-解码器-重构器”网络(Encoder-Decoder-Reconstructor Network,RecNet)。具体来说,编码器网络为视频片段的每一帧图像提取CNN特征,解码器使用柔性注意力机制动态地为每一个CNN特征分配权重,并在每个时刻预测一个单词,最终连接成句子来描述视频片段。本文提出了两种重构器,分别建立在解码器之后,将解码器的隐藏状态序列重构为包含了输入视频片段的全局语义信息的全局特征和包含了局部语义信息的局部特征。在此过程中,解码器学习反向信息,并传递给“编码器-解码器”部分。同时,本文还提出了一种融合重构策略,用于同时重构输入视频片段的全局语义信息特征和局部语义信息特征。重构器进一步对视频与语言信息建模,从而提高视频语义描述任务的性能。本文在三个大规模视频语义描述数据集MSR-VTT,MSVD和ActivityNetl.3上进行了充分实验。定性和定量的实验结果表明本文所提出的“编码器-解码器-重构器”网络能够加强视频语义描述任务的性能,在不同数据集上具有良好的泛化性能。除了传统训练策略,本文还引入强化学习算法(REINFORCE)直接优化自然语句评价标准,如CIDEr指标,进一步证明了所提出的方法能适应不同的训练策略。