基于超图神经网络和时空关系推理的视频问答研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ufs2997izxn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
给定一个视频和一个视频相关的自然语言问题,视频问答任务输出问题的答案。结合计算机视觉和自然语言处理的视频问答任务接近通用人工智能,有很高的研究价值和广阔的应用场景。视频中不同对象之间的关系所构成的结构信息非常复杂,制约了理解和推理,特征的融合与交互是视频问答的关键。得益于图神经网络在结构信息上的表征能力,跨模态交互可以被建模成图神经网络的更新。随着多模态融合技术的发展,基于Transformer的视觉-文本推理模型由于其卓越的性能成为了主流方法。因此,本文为解决视频问答任务的难点,从不同方面提出了以下三个算法:(1)基于多尺度渐进注意力的视频问答算法。首先,从帧序列中构造不同长度的剪辑,并将剪辑的长度作为尺度信息。然后,针对不同尺度的剪辑分别生成多尺度图,图中的顶点表示视频特征。为了实现关系推理,使用图卷积更新每个尺度图中的顶点;在问题的引导下,渐进注意力被用于在跨尺度图交互过程中实现多尺度特征的融合。具体来说,每个图按自上而下的尺度顺序逐渐更新,然后按自下而上的尺度顺序更新每个图。最后,将图中的顶点特征与问题嵌入融合,并使用分类器来找到答案。在视频问答基准(TGIF,MSVD和MSRVTT数据集)上评估的结果超过了当前方法。(2)基于四元数超图网络的多模态视频问答算法。首先,通过预训练的Res Net-152、Slow Fast和BERT分别提取多源信息(视频、字幕、问题和候选答案)的特征。其次,将提取的特征嵌入到四元数空间,以表示视频的多模态信息。紧接着,基于视频中检测到的视觉目标构建超图,其中顶点表示剪辑级的四元数特征。然后,通过四元数超图卷积网络实现多模态和结构的推理。最后,提出的问答推理模块用于跨度建议和答案预测,以便从候选答案中选择出正确答案。多模态视频问答任务是在TVQA和Drama QA数据集上评估,实验结果表明本文提出的算法超过了当前最好的方法。(3)基于超图推理和Transformer结构的视频问答算法。首先,问题文本通过词向量嵌入得到文本特征。其次,使用预训练的Faster-RCNN、3D Res Net-152和Res Net-50分别提取检测特征、运动特征和网格特征,并通过超图神经网络的学习来表征视频的时空关系。然后,分别对这4种特征进行令牌嵌入、分段嵌入和位置嵌入,得到的3种嵌入相加后所有令牌拼接在一起。接着,所有令牌特征送进编码器和解码器,通过自注意力机制实现多模态的融合与交互。最后,预训练阶段对[MASK]令牌进行预测,微调阶段对[CLS]令牌训练答案分类器。在VATEX数据集上预训练之后,本文提出的算法在视频问答基准数据集上微调的准确率超过了当前最先进的方法。
其他文献
雾霾的存在使拍摄环境变得恶劣,导致成像后的图像出现细节丢失、对比度下降和颜色失真等问题,不仅影响人的主观感受,更严重制约了后续高级视觉应用(如目标检测)的性能。现有图像去雾算法大多数仅针对正常光照下的含雾场景,而未考虑低光照下含雾场景的特点,即:光照强度低,雾对成像质量的影响被进一步放大;场景中通常存在多个光源,不同光源的光经过雾的散射使得图像色偏更加严重;光源附近存在明显的辉光效应。本文针对低光
学位
随着大数据和深度学习网络的不断发展,人工智能算法的运算复杂度和所需求的计算量也随之大幅度增加,机器学习的性能开始受到了限制。另一方面,量子计算在近些年得到了飞速发展,并逐渐展现其独特的优越性和巨大计算潜力。自然的,量子计算与人工智能技术的交叉融合而成的量子机器学习成为当前重要的前沿研究领域,得到了广泛的关注。和经典机器学习一样,量子机器学习领域的一个核心应用就是进行分类器的设计。目前,该方向的主要
学位
近年来,卷积神经网络在各种计算机视觉任务中取得了显著的成功。然而卷积神经网络的成功伴随着大量的计算和资源消耗,难以部署到资源受限的实际应用中。模型压缩为解决此类问题提供了有效的方案。知识蒸馏通过教师模型(大模型)指导学生模型(小模型)训练的方式,使得小模型尽可能达到大模型的效果,用小模型来代替大模型,来实现模型压缩的目的。知识蒸馏不受网络结构差异的影响,在模型压缩领域得到了广泛的研究。因此,本论文
学位
随着我国对科技创新重视程度的不断提升,科研工作逐步向多学科、多领域交叉融合的方向发展,科研团队逐渐出现大规模、跨地域、跨机构的特点,科研团队管理系统逐步被各科研团队使用。科研团队管理系统是一种信息化管理系统,可实现科研信息的完备收集、加工和存储,并辅助用户管理科研项目进度。然而,现有科研团队管理系统面临以下问题,首先,现有系统仅实现科研信息分类归档,科研信息的关联度差且利用率低。其次,现有系统只为
学位
自然场景任意形态文本识别是计算机视觉和自然语言处理的交叉研究领域,是研究实物对象和语义关联的重要桥梁。过去的十几年,受限场景的文本识别问题已经基本解决,但在通用场景中,目前算法的识别率仍然有限。应用层面上,小规模的神经网络是主流模型,能够实现较高的响应速度,然而识别率较低。识别率先进的方法普遍使用并行注意机制进行视觉特征建模,然后引入语言信息弥补视觉信息的短板,但受限于语言模型的能力,语言信息没有
学位
微波无线传能是以微波为载体,通过收发天线传递能量的无线传能方式,相比以电缆作为载体的有线传能方式有着明显优势,在军工和民用方面都有着广泛应用前景。微波无线传能系统的收发天线多采用阵列天线,接收阵列天线会获得多路直流能量,常采用直流合成方式汇成一路直流能量来为负载供电。然而现有整流电路的等效模型不准确,导致直流合成的效率分析难以精确给出。在整流电路方面,二极管的特性限制了整流电路的功率容量,晶体管由
学位
电子封装小型化促使高性能芯片封装设计进入三维堆叠阶段的同时,也寻求高可靠性设计与分析方法来满足封装形式的多样化。叠层式封装(Package on Package,PoP)是三维堆叠封装中工艺较成熟的主流堆叠封装形式之一。先进PoP封装中,单个芯片模块采用多层裸片堆叠进行小型化设计,互连(焊球)的数量也因此增加。为了精准高效的分析PoP封装的力-热可靠性,本文主要解决了含有复杂布线和多层结构的基板力
学位
频率选择表面(Frequency Selective Surface,FSS)是一种对电磁波具有选择性能的周期性阵列结构,其优异、灵活的滤波特性使其在飞行器的隐身设计领域具有广阔的应用前景。随着应用平台向高频带、高性能方向发展,并且表面形状往往为复杂曲面,制造公差、装配误差以及曲面投影误差等随机因素对FSS性能的影响变得不可忽视。然而,传统的设计方法着重关注平面单元性能的实现,无法保证不确定因素影
学位
随着电力电子技术的快速发展,超宽禁带半导体氧化镓凭借其4.6-4.9 e V的禁带宽度,以及临界电场高达8 MV/cm的优越物理特性成为新一代功率器件领域的研究热点。然而,β-Ga2O3由于目前缺乏合适的受主,无法制造出p型β-Ga2O3,因此大部分的研究都集中在单极器件,包括横向和垂直结构的场效应管和二极管。其中,垂直结构被认为是未来2-3年最有前景的商业化产品。对于未来β-Ga2O3的发展而言
学位
本文是一篇关于专利翻译实践的报告。伴随着现代科技发展脚步的加快,科技翻译已然成为国际间相互交流的一种重要内容。因此,科技翻译特别是科技日语翻译对更好地学习和引进外国先进技术起到重要作用。鉴于专利翻译具有清晰的逻辑结构,准确的表达方式,以及独特的专业术语,翻译时不仅仅要注重语句的表达,对原文的专业知识背景也需要有一定的了解。因此,我们有必要对专利项目翻译进行深入的研究与探讨。本文是根据延边汇延翻译咨
学位