注意语义的视频摘要

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:dickui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着存储硬件的不断升级以及数据传输速度的不断提升,记录视频变得越来越廉价和快捷。怎么有效地存储以及浏览这些视频是视频摘要技术所要解决的。视频摘要就是把视频浓缩成可以总结该视频主要内容的摘要。一般是从视频中抽出具有代表性的帧和片段,然后合成为一段可以快速浏览的短视频,以此达到减少存储空间和浏览时间的目的。这方面的研究引起的广大科研人员的兴趣,很多优秀的算法相继被提了出来。视频中的冗余一般包括视觉冗余和语义冗余。视觉冗余指视频中连续出现的重复画面,语义冗余指和视频主线无关的片段。以往的一些方法一般是通过最大化摘要的视觉多样性来减少视觉内容的冗余度,这类方法生成的摘要在语义上不紧凑,而且对浏览不友好。本文立足于解决视频中的语义冗余问题,提出了基于注意力机制和视频描述网络的视频摘要方法。本文设计了嵌入注意力机制的帧选择器模块和以编码器-解码器(Encoder-Decoder)为基础的视频描述网络。帧选择器由单层LSTM网络组成,根据每一帧视觉内容,会输出对应的重要性分数。该分数与原始CNN特征相乘后,会被输入到视频描述网络。视频描述网络由双向LSTM网络构成的编码器以及单层LSTM网络构成的解码器组成。本文利用了词向量技术对文本信息进行映射处理。在描述文本的监督下,帧选择器会根据视频内容与监督信号的语义相似性计算每一帧的重要性分数,分数值越高说明该帧越重要。由此,网络就可以自动地定位到与描述文本语义一致的视频片段。在此基础上,针对生成摘要不够稀疏以及无法嵌入人为先验信息的缺陷。本文提出了两种约束函数:无监督L1稀疏约束和有监督约束,其中无监督L1稀疏约束可以让网络输出更紧凑的摘要,并在弱监督的基础上使性能有进一步提升。有监督约束则能把人为总结视频的内在统计规律嵌入网络的学习过程中,该约束可以让网络性能大幅超越前沿方法。为了从更“细粒度”层面分析视频的语义信息,本文还提出一种语义图聚类的视频摘要方法。利用视频与监督文本每个单词之间的语义相似性构建视频帧之间的语义图,然后利用图聚类算法对齐进行聚类分析。最后取出每个子类中度数最大的节点当作最具有语义代表性的关键帧。本文提出基于注意力机制和视频描述网络的视频摘要方法以及基于语义图聚类的视频摘要方法在一些公开数据集取得了不俗的效果,验证了本文方法的实用性和有效性。
其他文献
目标检测是图像处理、计算机视觉领域备受关注的研究热点,也是多目标跟踪、目标识别等课题的基础。在过去几年的时间里,随着卷积神经网络的发展,图像目标检测研究取得了长足
随着近些年来高速铁路的蓬勃发展,高速铁路网逐渐建成并完善,高速铁路也成为人们中远距离出行的首选交通方式。但在运营过程中高速铁路列车受到随机因素干扰时,造成列车不同
高寒山地区域空袭与反空袭对抗是我国内陆边境的主要作战样式之一,研究该作战地域的防空火力部署具有重大的军事意义与应用价值。鉴于该方面研究相对滞后以及防空作战急需的
随着“全球一体化”建设的不断推进与发展,各国的来往交流的需求不断增加。不仅体现在人员的流动,还包括货物的流通。民航运输因其有着独特的便利性而得到很大的发展,各国的
真空发生器在气动行业应用于真空输送过程中,可以快速的产生负压,实现短距离负压输送,本文结合真空发生器在现代工业上的应用,通过数值模拟的方法,探讨了包括真空发生器结构
脱氧核糖核酸(Deoxyribonucleic acid,DNA)是生物体的主要遗传物质,由脱氧核糖及四种含氮碱基组成。UV照射、X射线、病毒、药物等的刺激可以使DNA发生损伤,出现替换、删除、
航空发动机建模仿真技术在发动机全寿命周期内各个阶段都有所应用,实现准确的发动机建模仿真对于发动机的状态监控、性能分析及新型航空发动机研制等都意义重大。本文采用面
公司价值是衡量公司为股东创造收益能力的最直接指标,它能够客观真实地反映公司在某个期间的经营成果。公司价值会受到公司资本结构、公司治理以及行业环境等多方面因素的影
滨海地区服役的钢筋混凝土结构由于长期受到氯离子的侵蚀,结构的抗震性能严重退化,目前常用的结构加固技术(Structural strengthening technology,SS)不能阻止结构内钢筋的进
随着大数据及电子商务的快速发展,多维数据呈爆炸性增长,这为多维可视化技术的发展带来了新的挑战和机遇。近年来,多维可视化技术取得了较大的发展,广泛应用于各个领域。多维