基于多头注意力机制的视频描述生成算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:nizhongyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频描述任务的目标是给定视频片段,算法自动生成与视频内容相应的描述文本。本文的研究内容着重于对短视频片段的描述文本生成,通常短视频片段仅包含一个动作或事件,生成的描述文本为一个英文句子。主流的视频描述模型使用循环神经网络来学习视频特征序列和单词序列内部的时序依赖关系,以此获得对视频和文本内容的向量表示。由于循环神经网络的结构特性,这样的模型存在无法并行计算和时序依赖关系不够灵活的缺陷。为了提高模型的计算速度且学习更好的时序依赖关系,本文提出了基于多头注意力机制的视频描述基线模型,该模型训练阶段可并行且可得到更好的视频与文本内容的向量表示。此外,在数据输入层面,由于视频数据包含多种模态的信息,本文在基线模型的基础上提出了多模态特征融合的视频描述模型,它可以自适应地控制不同模态特征对生成单词的影响,得到包含更多视频内容细节和表述更自然的描述文本。在模型的泛化性和实用性层面,由于现有的视频描述数据集规模小,涵盖的视频种类有限,本文在基线模型的基础上提出了基于半监督学习的视频描述模型,通过引入大量无监督的短视频数据预训练获得泛化性较好的视频帧特征去噪编码器,借助预训练模型提升基线模型在视频描述任务上的表现。同时引入多任务联合学习策略,用视频帧特征去噪的任务给视频描述的任务做正则化,进一步提高视频帧特征编码器的泛化性能。
其他文献
行政事业单位,是中国独有的服务于民生的行政机构,在当前新的经济局势下,行政事业单位的内部控制以及财务管理体系正面临着全新的挑战,为了能够使行政事业单位更好的发挥自身
原中国中西医结合学会泌尿外科专业委员会副主任委员、湖南省医学会泌尿外科分会主任委员、中南大学湘雅二医院泌尿外科主任刘任教授因病医治无效,于2014年2月19日在长沙逝世,
突发事件新闻传播关乎社会稳定,引起了政府、新闻界和业内人士的关注,本文从突发事件新闻传播的发展历程、以人为本是突发事件新闻传播的出发点和落脚点、突发事件中究竟有哪
在卫星通信中,全球组网的星间链路和民用领域的星地宽带通信网络,对传统微波卫星通信的通信容量提出了新的挑战,卫星激光通信为解决卫星通信中的速率瓶颈提供了新方向。空间激光通信与测距一体化技术以激光光束为载波,在同一个激光光束和硬件平台上实现通信和测距双重功能,可同时满足高速率数传通信和高精度的距离测量,是星间组网及卫星导航等领域的重要研究方向。目前,激光通信与测距一体化技术已经在美国的LLCD(Lun
采用文献资料法对体育教育的异化现象、体育教育的生态环境等问题进行分析,利用教育生态学的基本原理探析体育教育发展的规律和生态机制,探索优化体育教育生态环境的途径和方
无线电频谱资源是一种新兴的自然资源,随着无线电通信技术的发展,无线电频谱资源的有效配置和利用、无线电频谱资源使用中发生的侵权行为等法律问题与现有相关法律制度的矛盾日
据北京市辐射环境管理中心资料显示,移动通信基站已经和电视发射塔、广播传播台、高压送变电系统等共同成为北京市电磁辐射污染的主要源头。本文旨在根据《物权法》的有关规