【摘 要】
:
视频问答任务(Video Question Answering,Video QA)旨在根据视频和基于视频的自然语言问题推断出正确答案,因此视频问答是解决从海量数据中提取需要视频内容的重要方式之一,是理解精细化视频内容的研究之一,同时也是研究跨模态信息(视频、音频以及文本)融合与推理的关键任务之一。视频是由多帧静态图像组成的动态视觉内容,相邻视频帧之间的整体内容变化往往比较微弱,因此相邻帧中的对象往
论文部分内容阅读
视频问答任务(Video Question Answering,Video QA)旨在根据视频和基于视频的自然语言问题推断出正确答案,因此视频问答是解决从海量数据中提取需要视频内容的重要方式之一,是理解精细化视频内容的研究之一,同时也是研究跨模态信息(视频、音频以及文本)融合与推理的关键任务之一。视频是由多帧静态图像组成的动态视觉内容,相邻视频帧之间的整体内容变化往往比较微弱,因此相邻帧中的对象往往也会重复存在。部分对视频问答任务推理无效的内容(冗余帧、重复对象、无关的背景信息)也广泛存在于视频中,同时文本中也会存在对引导视觉线索无效的词或短语。在跨模态融合与推理答案时,这些大量且冗余的信息会给寻找答案线索带来干扰。因此如何从文本信息和视觉信息中提炼出回答问题所需要关键的内容,去除冗余是极为重要的。一种可行的思路是分别对视觉和文本的上下文信息进行聚合与筛选,以获取回答问题的关键表征,随后利用聚合后文本表征和视觉表征进行跨模态推理与融合。基于以上的思路,本文提出了以下两种方法来处理视频问答任务,方法的概要描述如下:(1)在第三章中,本文提出了一种端对端可训练的,基于注意差异优化机制与多模态推理的视频问答网络ADOMR-Net(Attention Difference Optimization with Multi-modal Reasoning Network)。首先,软注意机制在解决冗余信息的问题上是有效的,注意力机制有助于寻找到视觉中的关键信息(对象,视频帧,视频片段)和文本中的关键信息(词,短语)。由于视频内容较长,自注意力机制在使模型的消耗的内存和算力成本随着输入大小呈二次方增长。在本文中,提出了一种新的注意差异优化模块。注意差异优化模块在寻找关键信息的同时上也降低计算量,为了增强模态间信息的差异性,利用了自注意的多头策略。考虑到文本词数量比视频片段数量多,本文引入差异化查询注意损失DQA Loss(Distinct Query Attention Loss)通过将权重分布到特征的不同元素上以丰富特征表达的多样性。其次,本文利用多模态因子分解双线性池化方法解决问题引导视觉推理的过程。在多个数据集上的实验结果表明,本研究可以有效提高视频问答的信息聚合与答案推理的准确率。(2)本文第四章在第三章的基础上,利用聚合的思想提出了一种端到端可训练,基于RVLAD(Residual-less Vector of Local Aggregated Descriptors)语义聚合模块和Transformer跨模态语义交互模块的视频问答方法TVLAD-Net(Transformed RVLAD Network)。本文提出的RVLAD语义聚合模块有助于在视频或文本中寻找关键信息,去除其中的冗余信息。利用Transformer交互模块相互引导来自视觉和文本的各个模态的RVLAD聚合描述符之间的推理,以捕获与视频问答中答案推理相关的线索。与本文中ADOMR-Net中问题引导机制不同,TVLAD-Net利用更为普适的Transformer解决多个模态之间的信息交互,可以增加视觉模态内部的信息推理能力。本文TVLAD-Net在TGIF-QA,MSVD-QA和MSRVTT-QA数据集上的实验结果表明,本文方法优于现有模型,验证了TVLAD-Net提高了视频问答模型的鲁棒性和泛化能力。
其他文献
基于深度学习的目标检测算法因具有速度快、精度高等优点被工业产品表面缺陷检测领域寄予厚望。但该方法需要大量的缺陷数据用于模型训练,而工业场景中获取缺陷数据的成本往往较高,因此迫切需要有效的数据增强方法以降低缺陷数据的获取成本。和其他数据增强方法相比,基于生成对抗网络的数据增强方法因能生成更接近真实分布的数据而备受重视,所以本文基于生成对抗网络对缺陷数据增强方法中的若干典型问题展开了深入研究,具体研究
从非结构化文本中进行信息抽取和知识图谱构建在自然语言处理(Natural Language Processing,NLP)任务中均发挥着至关重要的作用,而实体关系抽取(Entity and Relation Extraction,ERE)又是信息抽取和知识图谱中的一个关键而又具有挑战性的子任务。ERE又是由命名实体识别(Named Entity Recognition,NER)和关系抽取(Rela
随着互联网的发展,越来越多的创作者在社交媒体上发布文章。但随着文章的不断增多,其内容质量也变得参差不齐,其中包括大量的低质量的甚至传播虚假信息的文章。因此,如何从海量的多媒体文章中自动筛选高质量的内容是十分重要的。现有的方法往往依赖于大量的人工标注数据来训练质量评估模型。并且现有的方法通常会考虑社交媒体文档中的描述性内容特征和简单关系,但不能对文章之间的复杂结构和动态关系进行建模。另外,社交媒体中
近些年来,随着信息时代的快速发展以及智能手机和智能手环等设备的普及,采集人体相关数据变得更加方便且准确,因此,基于可穿戴设备的第一视角多模态个体行为识别任务逐渐受到越来越多研究人员的关注。然而,传统的个体行为识别任务由于数据采集成本高而面临着缺乏大规模多模态数据集的困境。本文主要解决基于视觉和传感器数据的小样本多模态个体行为识别任务,它面临两个重大的挑战,一方面,视觉模态的数据通常包含丰富的物体和
在信息爆炸的时代,图像是获取信息的主要媒介,而高分辨率图像因其包含丰富的信息被广泛的用在安防、图像压缩、医疗等多个领域。但是由于硬件、环境等因素,导致现实中获得的大部分图像的分辨率都较低。针对这个问题,图像超分辨率重建技术被提出,该技术旨在利用低分辨率图像重建出对应的高分辨率图像。近年来,随着深度学习的飞速发展,基于深度学习的超分辨率重建技术得到广泛的关注。通过对现有的一些超分辨率重建方法进行深入
文本识别及其相关问题一直都是计算机视觉领域的研究热点,该技术与自动驾驶、盲人辅助、产品搜索等应用紧密连接,早在上个世纪科研者们就着手相关的研究。近年来,随着深度学习的发展,基于深度学习的文本识别方法已经取得了一定的进展,但在复杂场景图像中的文本识别依然是一个严峻的挑战。场景文本图像中有着弯曲的文本形状、不确定的文本方向、文本遮挡、光照不均以及背景干扰等问题,给文本识别带来了很大的考验。本文针对场景
随着数字科技与网络多媒体的快速发展,图像成为用户进行观点发表与情感表达的新兴媒介源源不断地涌向社交网络。理解社交网络中图像所承载的更高层次的情感内容,实现图像情感语义分析及情感分类,已经成为图像标注、基于情感语义的图像检索、网络舆情监测等领域的热点研究内容。基于图像的情感分类就是运用特定算法解析图像中蕴含的情感元素。本文基于深度学习来研究图像情感分类问题,主要工作包含以下两个方面:(1)鉴于从情感
跨模态视觉内容生成是指通过多种模态信息的输入完成视觉内容的生成,它同时涉及多个领域,如计算机视觉、自然语言处理,因此它的实现需要依靠深度学习、图片生成、文本特征编码等多种基础技术。视觉内容包括图片、视频等形式。目前的文本到图片生成模型,难以保证在复杂环境下生成结果的语义一致性与真实性。而视频生成模型方面,直接对视频进行建模的模型表现还较差,主要体现在视频帧的连贯性上以及运动内容的一致性和真实性等问
雾霾是一种传统的大气现象,其中的雾霾、烟和灰尘等颗粒会遮盖大气的透明度。而且由于空气污染(粉尘、雾气和烟雾),在室外环境中拍摄的图像通常也会遇到复杂,非线性和与数据相关的噪声。作为图像恢复技术,图像去雾在计算机视觉中受到了广泛的关注,并有利于后续的高级任务,例如目标检测。图像去雾是计算机视觉和多媒体技术领域的一项基本任务。它在进行去雾的过程中一般面临以下几方面挑战:i)图像中雾度的不均匀分布;ii
随着信息获取技术的快速发展,互联网上产生了海量的多媒体资源,在大数据时代下,这些多模态数据的管理给传统单模态检索方式带来极大的挑战。为了能够更有效地检索出用户需求内容,所以有必要研究快速且精确的跨模态检索方法。由于不同模态数据具有不同空间分布,所以存在异构鸿沟。另外,底层表示和高层语义之间也存在语义鸿沟。如何解决跨模态数据的语义鸿沟和异构鸿沟一直是亟需解决的问题。目前大多数跨模态方法都是学习一个公