基于多模态对抗网络的视频问答研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:honeymelonk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着各种传播媒体形式的不断丰富,通过运用来自多种模态的特征进行问答的方式越来越多地受到了关注。但是,针对图像、视频以及文本的问答场景,如何能更好地理解它们所组成的多模态内容是一项具有挑战性研究任务,因为多模态视觉的内容与多模态自然语言之间存在着完全不同的统计、语义特征,例如相似内容之间的连贯性,不同内容之间的相关性等,尤其是在视频问答任务中,数据处理的难度以及模态之间的噪声大幅增加,视频内容和文字的理解给研究人员带来了更大的挑战。针对此类任务,本文的主要研究内容如下:1.本文的研究重点是针对多模态视频问答任务,设计一种新的模型方法,从而更好地理解视频故事有关的问答,为了便于后续的研究,首先对视觉问答以及深度神经网络的一些相关知识进行了介绍。2.为了高效地解决视频问答中多个模态的融合问题,即获得一个准确率较高,复杂度较低的模型。本文首先针对一种用于解决文本问答的记忆网络进行了研究,同时基于对抗网络的思想以及自注意力机制对其进行改进,设计了一种称为对抗性多模态网络(AMN)的方法。在AMN框架中,本文可以为视频片段和对应的文本(例如电影字幕和所设计的问题)找到一个更连贯的子空间,从而学习更好的多模态特征表示。同时,为了在学习的多模态表征中保留视频片段的视觉特征之间的自相关性,本文提出了一种自注意力机制来达到不同模态的一致性约束,该机制可以使融合后的多模态特征在时序关系上保持一致性,并做了大量的实验来探索不同一致性约束方法对多模态理解的影响。本文在视频问答基准数据集Movie QA上进行了广泛实验,结果表明本文提出的AMN网络优于其他已发布的最新方法。据本文所知,这是为多模态视频问答引入生成对抗式框架的第一项工作。3.为了在解决视频问答中多模态融合问题的同时,使模型对于上下文间隔较短的故事情节也有很好的效果,即对于更关注细节的问题也有较高的准确性。本文首先针对常用于视频分类任务中的双流网络进行了研究,将AMN网络的对抗学习模块置于双流网络当中,并且基于多路卷积融合的方法对骨干网络进行了优化,同时本文在规模较大的电视问答数据集TVQA上进行了一系列的实验,结果表明本文提出的方法有比较好的表现。4.为了探索在本文提出的AMN方法中,视觉特征和文本特征在时序上的相关性,本文使用PCA和t-SNE等数据降维的技术对模态特征分布图进行分析,同时使用混淆矩阵等数据可视化方法来探究AMN网络中多模态特征的融合效果。
其他文献
在大数据和智能化的时代浪潮下,人们对于微小信号的测量有着更进一步的追求,这就推动了新型传感器和高精度检测系统的发展。和传统的传感器相比,具有高灵敏度、良好的稳定性、因不同镀膜而具有的多样性等特点的石英晶体微天平(Quartz Crystal Microbalance,QCM),不仅结合了化学、材料、物理等领域的优势,给传感器领域带来了更多可研究的方向,也给高精度传感和测量带来了一种新的研究途径。本
随着各种社交平台飞速崛起,自然语言处理技术俨然成为了生活中密不可分的一部分,其中以中文关键词为核心的研究是机器翻译、信息检索以及舆情监测等诸多领域的重要技术,一直以来都是自然语言处理研究领域里的热点。然而,当前中文关键词提取算法大多使用现成的分词工具来获取候选词,这导致算法的性能极大地依赖于事先分词的准确性。另外,现绝大多数的中文关键词情感分析算法都建立在关键词标签预先提供的前提下,而实际应用场景
随着互联网时代的到来,人们的娱乐活动日益丰富,获取信息的来源日益广泛,观看视频逐渐成为一种主流的娱乐方式和获取信息的重要途径。但是,由于视频的类型太多,各平台视频的数量也很多,如何在大量的视频中,根据用户喜好快速向用户推荐用户喜欢的视频就显得很重要了。具有个性化推荐功能的云点播平台就能让用户在云端获取和启用云点播服务,并且向用户智能推荐视频。现有云点播平台存在很多不足,并不完善,因此本文研究的内容
实际应用中,铁轨、发动机、齿轮设施和零部件易在服役过程中产生疲劳损伤、内部缺陷等问题,导致在使用过程中发生断裂,造成灾难性事故。因此精准有效的缺陷检测技术已成为工业自动化进程中的重要部分。其中无损检测因其应用广泛性在检测领域备受关注。与传统方法相比,电磁热成像利用电磁感应涡流在缺陷处的畸变累积焦耳热,增加了缺陷和非缺陷区域间的温度对比度,具有快速、非接触、非交互、直观成像等优点,已经成为检测研究热
在计算机视觉中,目标跟踪技术常常用于机器人、智能安防、视觉导航和精准制导等诸多领域。虽然学者在该领域做出了大量的成就,但是设计一个在目标外观发生显著性变化时能够同时保持较好的效率和鲁棒性的跟踪器依旧困难,其原因在于,复杂跟踪器具有较好鲁棒性但效率低下,而简单跟踪器效率较好但是鲁棒性较差。相关滤波器属于简单跟踪器,因此需要提升它的准确性和鲁棒性。本文以相关滤波跟踪框架为基础,聚焦于提升相关滤波器的准
知识共享系统平台是根据企业生产管理系统运作过程中的实际需求开发的一个知识管理方面的知识资料运用共享平台,对于企业生产管理过程中产生的问题协调处理流程记录、问题解决方案等文档资料进行系统化的管理。系统在将这些管理的方法和经验转化为可共享和感知的知识的同时,还配备了全方位的查询功能,可以提高企业用户对同类知识的利用程度,可以减少对知识寻找的时间成本消耗。系统对于审核后的知识文档资料进行知识分类、集中管
在各种因素的影响下,桥梁结构上会出现不同的损伤类型,日益侵蚀结构性能,为日后结构失效留下隐患。及时发现损伤并制定合理措施能有效降低发生极端事件的概率。目前,损伤检测方法研究的主要方向为,处理与分析采集的结构响应数据来获取有关结构损伤的信息,并对结构状态作出判断,即数据驱动方法。然而,在对桥梁的长期监测下会积累海量数据,一般数据驱动方法无法有效地利用如此大量的数据。深度卷积神经网络(Deep Con
《祝福》是一篇具有浓烈悲剧色彩的文章,由于其与现代的学生具有很长的时代距离所以很难和学生产生心灵的共振。而在高中语文阅读教学中《祝福》又是一篇很有代表性的文章,教师以此文章为例,可以通过凸显教学目标导向、重视思路教学、鼓励学生质疑、激发学生求知欲的方式来培养学生的思维能力,同时让学生对这篇文章有更加深入的了解,并与之产生共振效应。
为应对高效低耗处理城市污水的需求,将全程自养脱氮工艺与反硝化除磷工艺相耦合,达到同步脱氮除磷去碳的目标。基于此,本研究采用连续流ABR-MBR反应器,启动耦合工艺处理城市污水,并探究不同有机负荷下的影响,以及运行实际城市污水时的效能。主要研究成果如下:(1)以人工配制的模拟城市污水为处理对象,运行ABR-MBR反应器,逐步降低进水底物浓度(NH4+-N=100 mg·L-1~50 mg·L-1),