论文部分内容阅读
图像标题(Image Caption)和视频标题(Video Caption)是近年来兴起的研究方向,其横跨计算机视觉与自然语言处理两大领域,吸引了研究人员的广泛关注。尽管Caption方法有着优秀的表现,但没有指明标题与图像或视频之间的联系。本文通过标题引导,借助深层模型实现自上而下的显著性,研究文本到图像或视频的区域定位。本文分别从增强模型的空间特征信息、时序特征信息、映射方法等方面进行研究。主要研究工作如下:(1)针对传统基于标题引导的显著区域生成方法对图像空间特征信息利用不充分问题,提出了基于梯度加权的目标激活映射的显著区域生成方法。该方法利用全局平均池化层(Global Average Pooling,GAP)提供图像中全局层面的空间信息,通过标题逐单词引导下生成的权重与卷积神经网络(Converlutional Neural Networks,CNN)最后一层卷积层的特征点乘生成每个单词引导的加权卷积特征,从而引入携带全局和局部空间信息的特征图,最后通过ReLU激活函数生成具有空间信息的显著区域。在Flickr30k数据集上的实验证明,所提出方法能够有效的提升显著检测的性能。(2)针对图像序列或视频标题引导的显著区域生成方法大多采用单帧信息和标题中所有单词进行引导而存在的时间信息缺乏和无意义单词影响显著区域生成精度的问题,提出标题实词引导下时空特征融合的显著区域生成方法。该方法采用自然语言处理工具包(Natural Language ToolKit,NLTK)对标题本身提取实词,减少无意义单词对显著区域生成的干扰;利用分解双线性池化操作融合CNN提取的静态特征与三维卷积神经网络(3D Converlutional Neural Networks,C3D)提取的时空特征形成增强时空特征表示;并将融合后的时空特征利用多层长短时记忆网络(Long Short Term Memory,LSTM)架构获得每个实义单词引导下的概率分布p,然后将每个视频段中关键帧送入多层LSTM架构中获得的概率分布q,最后利用KL散度生成显著区域。实验表明,时空特征融合方法能有效定位视频时空特征,显著提高显著区域定位能力。(3)针对传统的基于标题引导的显著区域生成的方法大多采用单一的编码方式和传统LSTM网络不能有效捕捉最有用的特征信息的问题,提出标题分层语义引导下强判别网络的显著区域生成方法。该方法使用词向量、一维卷积、双向门循环单元(Bi-directional Gated Recurrent Units,Bi-GRU)编码得到单词-短语-句子级别的特征,实现标题与图像或视频帧的多重映射。替换原有LSTM的tanh激活函数为线性整流函数(Rectified Linear ReLU),在每一个LSTM获得非负的神经元信号,同时将权重取反获得非正的神经元信号,最终解码器获得两种概率分布。最后,采用KL散度来计算单个视频帧与视频帧序列的信息增益大小来实现图像或视频帧的显著区域定位,两种显著图减去相交部分获得更具区分性的显著图。实验表明,分层语义能够有效实现文本与图像的多样化的联系,同时强判别网络能够对更复杂的环境进行区分,该方法极大地提升了模型的性能。