基于注意力机制的图像内容理解与视觉推理算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jql002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的飞速发展、信息量的急剧膨胀,传统单一模态的信息逐渐被音频、视频、图像、文字等多种模态的融媒体信息所取代。目前的深度学习算法中处理单模态信息的方法并不能有效解决复杂场景下的真实问题,因此探索多模态信息的处理方法成为了重要的研究方向,其中图像内容理解与视觉推理任务就是一个典型。图像内容理解与视觉推理是指,将图像和关于图像的自然语言问题作为输入,并将图像与目标问题整合成一个多模态特征,利用该多模态特征针对图像内容进行“推理”,最终输出自然语言答案。本文以图像内容理解与视觉推理为研究内容,针对现有方法对多模态信息融合不够充分的问题,提出了新的多模态特征融合算法,通过针对性设计的多模态特征融合误差与多模态特征对齐,显著优化了多模态特征融合的尺度。此外,本文还针对现有方法对图像语义理解的层次较低的问题,设计了新的图像高级语义特征提取算法。本文最终基于以上两种算法,构建了一个端到端的多模态特征融合模型,并在主流数据集上的实验验证了该模型的可行性,结果表明,该模型显著优于现有主流模型,具有优越性。本文的主要工作内容如下:1.针对图像内容理解,提出了一个图像高级语义特征提取算法。该算法将图像与关于目标问题作为输入,通过学习目标问题的特征,并利用该问题特征指导网络模型去学习图像中更深层次的信息(物体本身、针对目标问题的行为与事件等高级语义信息),最终输出图像的高级语义特征。2.针对多模态特征融合,提出了“多模态特征对齐”的定义,引入了“多模态特征融合误差”的概念,最终实现了一个新的多模态特征融合算法。该算法将图像高级语义特征与问题特征作为输入,基于双线性池化方法,通过使用MSE距离与Cross-entropy函数进行误差构造,通过“多模态特征对齐”,有效地将图像特征和问题特征融合为一个稳定的多模态特征。3.基于以上两种算法,构建了图像内容理解与视觉推理的整体模型,并进行了实验验证。本文在主流数据集VQA-v2上对该模型进行了实验分析,通过探究不同参数对模型表现力的不同影响以分析模型的有效性,并且还在目前通用的三个数据集(CLEVR、GQA与VQA-v2)上将该模型与现有的主流模型做了对比实验分析,结果显示本文的模型显著优于现有主流模型。
其他文献
随着近年来我国创新驱动发展战略的实施,航空航天作为国家的重点产业也在飞速发展着。复合材料在航空航天行业的生产中起着无可替代的作用,现有的复合材料管理方式以纸质材料和电子表格为主,这种方式不仅无法使材料管理人员实时掌握材料状态和用量,而且极易造成材料的浪费与报废,尤其是对于复合材料中的易变质材料。现代先进航天器与大飞机的生产对这部分易变质材料的管理提出了更高的要求,因此有必要探索新的管理方式。本文对
设计更改是设计单位根据客户、工程需要或者修订发现错误时对原设计文件进行调整,是制造企业科研生产经营活动中一项非常常见和重要的工作。随着企业不断发展壮大,数字化制造等技术的不断应用,产品创新和改善的频次越来越高,同时客户化定制、敏捷制造的流行,传统的纸质管理方式已越来越无法跟上转变的步伐,使公司在管理设计更改时浪费大量的人力物力。不少企业已建立起以PDM、ERP和MES等系统为基础的先进数字化管理体
为了满足航空数控产品高质量的要求,国外洛·马、波音、空客等行业巨头已开发集成的质量管理系统并投入现场使用,这些行业巨头借助于设计系统、制造资源系统、财务系统等,开展了全面的质量信息化管理。而目前在公司内部,作为质量控制的重要环节,质量数据统计、上报仍然依赖传统单机Excel的形式,检验数据离散的分布在生产制造流程的各个环节,部分记录仍以纸质载体为主,且最终统计结果数据存储于统计人员的本机上,无法与
中国电信某省分公司CRM系统为千万数量级用户提供了电信通信商品销售、售后、自助受理等信息化服务。随着移动互联网、手机及宽带业务发展,CRM系统应用的功能越来越丰富,业务的逻辑规则也越来越复杂。为了更加有效地解决业务高峰期服务响应缓慢、数据库连接数量激增等问题,CRM系统开始向着基于分布式服务的互联网架构进行转型。随着CRM 3.0的“云+平台+应用”的架构改造工作开展,系统原有的数据交互方式也不再
近年来,计算机视觉领域受到越来越广泛的关注。图像作为人类沟通的重要媒介之一,在现实世界中具有许多重要的应用场景,如图像识别、图像生成、图像翻译等等。其中,图像翻译为该领域的研究热点。类似于语言翻译,图像翻译是指将图像从一个域的特征转换为另一个域的特征。随着近几年深度学习技术的发展,图像翻译领域的研究除了起初的图像风格迁移、黑白照转换、图像超分辨率提高、人脸动漫化以外,还包括图像实例级转换。虽然现有
本文以中英文文本及数学表达式混合的扫描或拍照图像作为研究对象,提出了一个高效的印刷体文本公式混合识别算法,并设计和实现了一个相应的系统。主要研究内容如下:1.融合目标检测及传统方法的题块结构分析算法。对题块图像做预处理,并融合目标检测技术及传统图像处理方法,将题块图像中的文本行及题目配图准确地定位和切分出来。2.融合表达式向量的文本及数学公式混合图像内容检测算法。针对数学表达式与中英文文本混合识别
比特币上的用户是高度匿名化的,这也滋生出许多经由比特币的违法行为,例如暗网,洗钱等等。考虑到这些违法行为在比特币交易行为上会体现某一些特征,所以本文考虑从交易行为的角度对比特币上的数据进行分析,从而实现一定程度上的去匿名化,这可以为监管机构和执法部门在对比特币上的违法交易做检测和取证时提供帮助。传统方法对比特币上的交易行为分析主要是通过启发式方法合并实体,借由实体来分析其共性,或者通过特征工程,再
目标检测算法是自动驾驶环境感知的关键技术之一。算法的复杂度特性和参数规模,使得车载计算平台的算力和功耗面临挑战。如何设计符合硬件特性要求的轻量化神经网络,是当前自动驾驶感知系统面临的难题。为此,本文综合考虑算法与硬件特性,基于FPGA车载计算平台实现了目标检测算法的设计与优化。在FPGA低功耗的前提下,针对当前算法与硬件设计割裂的问题,本文提出软硬件联合学习方法,设计了符合硬件特性的轻量化骨干网络
大数据蕴含有海量信息,地理文本大数据是大数据的重要组成部分,也是构建地理知识图谱的重要数据,但是这些数据中含有大量无用信息,如何从这些数据中过滤出有价值的数据是人们亟需解决的问题。地理知识图谱能够帮助学者们解决这一问题,而实体关系抽取是构建知识图谱的重要任务之一。实体关系抽取大多是运用深度学习的方法完成,但是地理领域的标注语料库非常稀缺,人工标注数据又费时费力,导致难以使用有监督的方法进行抽取,并
利用无人机平台进行实时多目标跟踪是无人机研究中很有实用意义的研究方向之一,同时它也面临不少挑战。目前主流的多目标跟踪算法都是用的以检测来跟踪(Tracking by Detection,TBD)的范式,即用目标检测网络找到待跟踪目标,再对目标进行跟踪。无人机获取图像时所处的位置往往离地面较远,因此图像中的目标通常尺寸较小且密集,非常考验算法中目标检测的精准度。同时,实时跟踪算法看重实时性,因此需要