论文部分内容阅读
人工智能日益发展,深度学习应用在视频描述技术中越来越广泛,其主流的模型框架是Encoder-Decoder,即利用卷积神经网络对视频提取视觉特征,然后利用循环神经网络利用视觉特征生成视频描述。大部分在该框架基础上的模型框架都缺乏着对视频的时序特征和空间特征的深度挖掘,而且在语言生成模型中,对视频特征和文本特征的融合方法都很简单,不考虑特征的深度交互。对于语义特征,没有具体的提取和使用方法。在对框架的解码部分的模型训练时,采用的训练方法都是按照传统的方式利用人工标注的单词来引导字幕生成模型逐步生成视频字幕,在选取字幕生成模型每次的输出单词分布值时,也都是按照最大值选取的方法,这些问题对视频字幕的生成具有很大的影响。为了解决上述问题,本论文首先基于S2VT框架设计了一个融合两级注意力机制和紧凑型线性池化层的视频描述框架(CRFAC-S2VT)。在该框架的视频预处理阶段首先利用视觉特征和数据集中的类别特征作为CNN的输入和标签进行对CNN的分类训练,然后利用训练好的CNN提取视频的视觉特征。在框架的编码阶段,本论文设计了一种卷积区域关注机制,它可以在不破坏图片的空间结构的条件下对提取好的2D视觉特征图的相关区域进行关注,从而得到关注后的2D视觉特征,然后将该视频特征和含有时序信息的C3D视频特征相互融合,最后我们利用编码器的模型特性对含有时序和空间信息的混合视频特征进行建模。在框架的解码阶段,本论文设计了一种对视频的关键帧进行关注的注意力机制,将数据集中的文本特和帧级注意力机制关注后的视频特征征输入到紧凑线性池化层进行细粒度融合,将混合特征作为解码器的输入,进而生成和视频相关性高的准确的视频字幕。其次,本论文基于CRFAC-S2VT改进并设计了一个包含语义检测器同时具有输入多模态特征功能的M-LSTM以及字幕结构损失函数的组合框架SFAC-S2VT,对该语义检测器多标签训练,利用其提取视频中的语义特征。采用自主随机训练方法对S2VT的解码器训练,该方法在解码模型生成单词的每个时刻都采用解码模型预测的单词作为下一时刻解码模型的输入,而且对解码模型输出的分布值选择方法采用随机取值方法。而该框架中的字幕结构损失函数可以调节输出的视频字幕的长短。本论文在MSR-VTT和MSVD数据集上测试所提出来的网络框架。结果表明,本论文设计的框架在两个数据集上可以当前先进水平竞争。