基于视觉注意的视觉问答方法研究

来源 :苏州大学 | 被引量 : 3次 | 上传用户：rwsonny

【摘要】

：

视觉问答(Visual Question Answering,VQA)是近年来兴起的研究方向之一,其横跨计算机视觉与自然语言处理两大领域,吸引了研究人员的广泛关注。本文通过模拟人类的注意力机制

【作者】

：

刘海宾

【出处】

：

苏州大学

【发表日期】

：

2018年01期

【关键词】

：

视觉问答视觉注意机制协同注意机制语义注意机制卷积神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

视觉问答(Visual Question Answering,VQA)是近年来兴起的研究方向之一,其横跨计算机视觉与自然语言处理两大领域,吸引了研究人员的广泛关注。本文通过模拟人类的注意力机制提取视觉与文本信息中的显著特征,并构建多模态融合模型用于VQA的答案预测。本文分别从视觉注意机制、视觉与文本协同注意机制与加入视觉语义概念的增强协同注意机制三个方面对VQA展开研究。主要研究工作如下:(1)针对传统VQA方法只采用全局图像特征,忽视图像区域的空间上下文信息,导致模型不能很好的理解细粒度级别的图像区域的问题,提出基于空间信息增强的视觉注意网络的视觉问答方法。该方法通过深层的卷积神经网络(Converlutional Neural Networks,CNN)抽取具有空间信息的中层图像特征,并将其输入到双向长短时间记忆(Bi-directional Long Short-Term Memory,Bi-LSTM)网络中,得到具有空间上下文信息的增强图像特征,之后引入基于区域的单模态视觉注意(Location-based Attention,LBA)模型提取图像特征中的显著区域特征,得到图像初始加权特征向量;同时,采用Bi-LSTM抽取问题语义特征,并与图像初始加权特征相融合,得到后续视觉注意网络的引导信息。针对单层的视觉注意网络的泛化能力不足的问题,本文通过堆叠多层注意力网络增强模型面对复杂输入时的推理与预测能力。实验表明,BiLSTM能有效的增强图像区域的空间上下文信息,并且多层的注意力网络有效的增强了融合模型的推理和预测能力,显著提升了VQA的性能。(2)针对多数VQA方法只采用单模态的视觉注意机制,而忽略文本注意机制对于输入问题(Question)语义信息抽取的重要性的问题,提出基于多模态交叉引导协同注意网络的视觉问答方法。该方法采用鲁棒的目标检测模型结合CNN抽取基于候选区域(Region Proposal,RP)的图像特征,同时利用双向门循环单元(Bi-directional Gated Recurrent Units,Bi-GRU)通过前馈和反馈GRU提取问题的高层语义特征;然后,采用没有引导信息的LBA模型分别提取图像和问题的显著特征,得到图像各区域的初始加权特征向量以及问题中各单词的初始加权特征向量。为了增强注意力模型的表达能力,该方法在多模态注意模型中引入一种新的非线性激活方法,并采用交叉引导的融合策略构建多模态交叉引导协同注意力网络,通过多步推理预测答案。实验表明,多模态交叉引导协同注意力网络可以充分的提取和利用视觉与文本中的显著特征,非线性激活方法能有效的提升模型的表达能力,从而提升模型在VQA数据集上的性能表现。(3)针对中、低层的图像特征与高层的问题语义特征抽象程度不同,导致多模态融合时出现间隙的问题,提出基于视觉语义概念的增强协同注意网络的视觉问答方法。该方法采用目标检测模型提取图像中的视觉语义概念,并引入语义注意机制选取与问题相关的视觉语义概念。为了充分抽取问题的高层语义特征,该方法采用分层结构分别从低层到中层再到高层逐层抽取问题的语义特征,并在每一层中采用序列化协同注意模型提取图像、问题和视觉语义概念的显著特征。最后,采用多层的前馈网络将在分层结构中得到的加权特征向量融合在一起,形成区分性强的特征向量,用于预测答案。实验证明,该方法能有效的减小图像特征与问题高层语义特征之间的融合间隙,同时针对问题的分层结构具有较强的语义抽取能力,该方法显著的提升了VQA的性能表现。

其他文献

融媒时代少数民族曲艺的跨媒介传播探析

<正>党的十九大明确指出,我国的社会主义建设已经进入新时代,社会主要矛盾也已经转变为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾。对美好生活的追求,必然

期刊

少数民族曲艺传统曲目媒介传播

1例全手皮肤脱套伤腹壁下动脉双叶皮瓣带蒂修复患者的护理

全手皮肤脱套伤是较常见而又棘手的手外伤,多因两个转动的滚轴将手卷入造成,当机器不断将手卷入时,伤者又猛力回抽手,在挤轧、牵拉的合力作用下,手部软组织包括皮肤、皮下组

期刊

全手皮肤脱套伤组织移植腹壁下动脉双叶皮瓣护理

青岩刘：“网店第一村”演绎“双创”传奇

<正>金秋十月的浙江,依旧笼罩在明晃热烈的阳光下,温润的空气中满溢着来自这片电商热土的明艳与活力。刚到义乌,《中国发展观察》杂志社调研组正巧赶上"2019中国义乌‘电商直

期刊

义乌工商学院电子商务发展“双创”

沙与沫(格言选译)

诗不是一种表白出来的意见。它是从一个伤口或是一个笑口涌出的一首歌曲。如果你歌颂美,即使你是在沙漠的中心,你也会有听众。诗是迷醉心怀的智慧。智慧是心思里歌唱的诗。

期刊

沙与沫哲学家

人民银行创设CBS的四个要点

1月24日，人民银行公告创设央行票据互换工具（CBS），为银行发行永续债提供流动性支持。人民银行在随后的答记者问中表示：“央行票据互换操作采用固定费率数量招标方式，面向公开市场业

报纸

信息函数在标准参照测验中的应用研究

主要从项目、测验、被试能力三方面来探讨信息函数在标准参照测验中的应用.研究结论表明:信息函数较经典测量理论能更精确地评价项目质量、测验质量及被试能力水平,因而对测

期刊

信息函数最佳评分加权标准参照测验项目反应理论

基于改进BP神经网络的胜任力薪酬模式研究

为了减少基于胜任力模型的薪酬制度在实际操作中由于主观因素造成的偏差，拟运用BP神经网络进行映射计算的方法建立转化模型，更准确的实现胜任力与薪酬的挂钩。系统稳定建立后，可

期刊

胜任力薪酬模式因子评价神经网络

随机比例微分方程解析解的稳定性和数值解的收敛性

随机延迟微分方程广泛地应用于生物学、经济学、控制论等诸多领域，在科学理论和生产实践中都起到非常重要的作用。由于随机延迟微分方程的显式解很难求出，在实际应用中通常用数

学位

随机比例微分方程Milstein方法收敛性多项式稳定几乎处处稳定

电子商务专业人才就业不对口分析与对策探索

近年来，在经济保持平稳增长和互联网宽带技术迅速普及的背景下，电子商务市场也保持了高速增长态势，呈现出明显的普及化趋势。然而在电子商务发展的同时，却出现了电子商务专业学生

期刊

电子商务就业不对口人才培养目标对策研究

基于显著几何特征的古木建筑关键构件多LoD尺寸信息提取方法

古木建筑关键构件的尺寸信息是其安全性能评估与提升、历史文化传承的重要基础,然而该信息的提取尚缺乏高效、高精度的方法。三维激光扫描的精细测绘技术为该问题的解决提供

期刊

古木建筑关键构件LoD模型显著几何特征点云数据自动化提取方法

基于视觉注意的视觉问答方法研究

与本文相关的学术论文