论文部分内容阅读
随着存储硬件的不断升级以及数据传输速度的不断提升,记录视频变得越来越廉价和快捷。怎么有效地存储以及浏览这些视频是视频摘要技术所要解决的。视频摘要就是把视频浓缩成可以总结该视频主要内容的摘要。一般是从视频中抽出具有代表性的帧和片段,然后合成为一段可以快速浏览的短视频,以此达到减少存储空间和浏览时间的目的。这方面的研究引起的广大科研人员的兴趣,很多优秀的算法相继被提了出来。视频中的冗余一般包括视觉冗余和语义冗余。视觉冗余指视频中连续出现的重复画面,语义冗余指和视频主线无关的片段。以往的一些方法一般是通过最大化摘要的视觉多样性来减少视觉内容的冗余度,这类方法生成的摘要在语义上不紧凑,而且对浏览不友好。本文立足于解决视频中的语义冗余问题,提出了基于注意力机制和视频描述网络的视频摘要方法。本文设计了嵌入注意力机制的帧选择器模块和以编码器-解码器(Encoder-Decoder)为基础的视频描述网络。帧选择器由单层LSTM网络组成,根据每一帧视觉内容,会输出对应的重要性分数。该分数与原始CNN特征相乘后,会被输入到视频描述网络。视频描述网络由双向LSTM网络构成的编码器以及单层LSTM网络构成的解码器组成。本文利用了词向量技术对文本信息进行映射处理。在描述文本的监督下,帧选择器会根据视频内容与监督信号的语义相似性计算每一帧的重要性分数,分数值越高说明该帧越重要。由此,网络就可以自动地定位到与描述文本语义一致的视频片段。在此基础上,针对生成摘要不够稀疏以及无法嵌入人为先验信息的缺陷。本文提出了两种约束函数:无监督L1稀疏约束和有监督约束,其中无监督L1稀疏约束可以让网络输出更紧凑的摘要,并在弱监督的基础上使性能有进一步提升。有监督约束则能把人为总结视频的内在统计规律嵌入网络的学习过程中,该约束可以让网络性能大幅超越前沿方法。为了从更“细粒度”层面分析视频的语义信息,本文还提出一种语义图聚类的视频摘要方法。利用视频与监督文本每个单词之间的语义相似性构建视频帧之间的语义图,然后利用图聚类算法对齐进行聚类分析。最后取出每个子类中度数最大的节点当作最具有语义代表性的关键帧。本文提出基于注意力机制和视频描述网络的视频摘要方法以及基于语义图聚类的视频摘要方法在一些公开数据集取得了不俗的效果,验证了本文方法的实用性和有效性。