基于注意力机制和元学习的视觉问答算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wangzan1616
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在深度学习领域,视觉问答一直是热门的研究方向,这一任务的定义如下:一个视觉问答系统涉及视觉和文本的处理。由自然图像和形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。目前的视觉问答方法通常基于物体检测的模型,计算速度慢且缺乏可解释性。并且训练依赖大量样本缺乏少样本学习能力。在本文中通过使用纯Transformer结构或卷积与Transformer相结合的方式对图像特征进行提取。并通过注意力方法提取特征中的关键信息。以此解决传统视觉问答方法当中计算性能消耗大,时间长的问题。同时通过元学习方法进一步的提高了模型的小样本学习能力,本文的主要研究内容如下:首先本文重新审视了不同的视觉特征提取方法对视觉问答模型的影响,并发现可以使用卷积和Transformer结构替代传统方法当中的区域选择和区域特征计算模块,有效的地提高了计算效率。并且相比于传统的视觉问答方法,本文的方法更有更高的可解释性。通过将模型中的注意力信息可视化我们可以清晰的看到在问题的回答过程当中模型依赖的重要图像区域和问题当中的重要词汇。其次传统学习方法依赖大量的训练数据,而在视觉问答这一任务当中涉及到的问题类型和问题形式是自由的也是不可预测的。传统方法缺乏对陌生问题的应对能力,为了增强模型的小样本学习能力。本文将问题以相似度进行分组,通过元学习方法对一组相似的问题进行比较,推测出这些问题之间答案相同的可能性从而进一步的提高模型在少样本学习情况下的准确率。总的来说,本文主要利用注意力的方法对文本和视觉信息进行提取,实现了多模态下的协同注意力机制,并通过元学习方法增强了模型在少样本情况下的准确率,最后通过视觉问答数据集上的大量的实验证明了本文的模型无论是在准确率上还是计算效率上都优于传统的视觉问答方法。
其他文献
随着嵌入式领域的不断发展以及处理器体系架构的持续优化,多核处理器因其高性能、低功耗和低成本等优势得到了广泛的应用。同时,在万物互联的时代,嵌入式设备面临着越来越多的风险和挑战,这不仅需要增强设备的可靠度和安全性,还需要具备高扩展能力。而微内核架构因其本身的架构特点,具备代码量小、可扩展性高、安全可靠等优势,十分适合应用在嵌入式设备中。因此,本文基于团队自研的mginkgo微内核,设计并实现一个面向
近年来,随着深度神经网络的快速发展,基于循环神经网络的模型在机器翻译领域取得了非常显著的成果。因为对话的生成也可以看成是从输入到回复的一种翻译,所以将其应用到对话系统上也是一种非常有前景的方式。并且随着互联网的发展,网络上开始涌现出大量开源的对话数据集,这也使得以数据驱动和端到端的方式训练生成式对话系统成为可能。本文主要研究的是开放域生成式对话系统。不同于特定域的对话系统,其主要目的是和用户闲聊,
随着大数据时代的到来,数据成为企业的核心资产,分析和挖掘数据的潜在价值对企业业务发展和关键决策具有重要作用。数据集成是数据挖掘分析的基础,数据集成中,多源异构数据可能存在数据缺失、不一致等数据质量问题,而数据清洗是保证数据质量的重要手段之一。数据清洗技术需要依赖大量外部知识来指导清洗过程,但由于外部知识规模较小、构建低效等特点,限制了数据清洗效率。而知识图谱具有知识规模大、语义丰富等特点,因此,研
近年来,以卷积神经网络为代表的深度学习方法在医学图像的分类、分割等任务上取得了超越传统方法的成绩,得到了越来越广泛的研究和应用。但是,一方面,由于医学图像的特殊性,适用于自然图像的深度学习模型在用于医学图像上时,模型精度会有所下降;另一方面,现存的深度学习模型普遍计算量大、参数过多,应用于硬件资源受限的设备时存在一定难度,大模型也在训练集数据少的情况下出现过拟合的问题。为了改善和解决上述问题,本论
目的 探讨多普勒超声评价颈动脉粥样硬化斑块性质及狭窄程度的效果,分析其与脑梗死的关系。方法 回顾性分析本院2020年2月至2021年1月76例确诊脑梗死的患者作为观察组,纳入同期住院或门诊非脑梗死患者60例为对照组;2组均接受多普勒超声评价检测颈动脉粥样硬化斑块,对比评价该检查项目对缺血性脑血管病的检出价值。结果 经多普勒超声检查出对照组有39个斑块,观察组135个斑块,观察组不稳定斑块数目明显高
随着计算机科学与技术的快速发展,人们生活质量得到改善的同时,每天产生的数据也在以指数级的速率增长。在这个数据爆炸的时代,由于人工智能、数据挖掘等技术的出现以及快速的发展,数据的潜在价值逐渐被人们重视起来。我们可以从今年3月份发表的《关于构建更加完善的要素市场化配置体制的意见》中看到,国家已将数据视作了生产要素,与其它要素一起融入了经济价值创造的过程之中,可见数据在国家层面得到了最高的认可。然而数据
随着计算机技术的发展,自动化、智能化业务系统的需求日益增长。机打票据在企事业中被普遍应用,业务流程中信息的自动识别对成本节约具有重要意义。然而,现有的方法大多要求专业的图像采集设备,识别效率也有很大的提升空间。因此,研究简单且成本低廉的机打票据识别系统具有重要的现实意义。传统的光学字符识别(Optical Character Recognition,OCR)开源软件仅仅可以对文章等简单文本内容进行
随着卫星技术、高速光纤传输技术的逐渐成熟,天地一体化融合网络理念逐渐被大众接受并推广。SDN作为一种较为新型且技术生态相对完整的网络架构,通过解耦控制层与转发层,以软件形式实现了对全网资源的掌控与调度。通过SDN技术将天网与地网协同一体,可以极大程度发掘出天网的潜力。星地协同中传输链路的传输质量会受到基站所处的地理位置、地形、天气等外在因素的影响,因此为了最大限度保障服务质量,本文通过SDN控制器
经历多年发展,分布式数据库领域逐渐细分,可以按处理方式不同将其划分为面向事务处理的数据库(OLTP型),面向数据分析的数据库(OLAP型)以及较新颖的混合两种功能的数据库(HTAP型)。其中AP和TP类型的系统发展已经相对成熟,而当前市面上虽然已经存在不少的HTAP实现方案,但大部分是基于行列混合存储的方式实现,事务的实现仍依赖于行式引擎,列式引擎数据需要从行式存储中同步得到,而直接面向列式存储的
近年来,随着互联网大数据的发展,各种形式的多媒体数据(图像、文本、视频、音频等)呈现出爆炸式的增长。而对大规模多媒体数据精准、有效的检索也随之成为一个新的研究热点和难点。多媒体检索的任务目标是实现以一种数据类型作为查询来检索得到本类型或其他类型的相关数据。例如,用户可以使用文本检索相关的图片或视频。本文针对大规模多媒体检索的重点和难点问题进行研究,深入探索了大规模多媒体检索已有方法存在的一些问题及