论文部分内容阅读
视觉问答(Visual Question Answering,VQA)是近年来兴起的研究方向之一,其横跨计算机视觉与自然语言处理两大领域,吸引了研究人员的广泛关注。本文通过模拟人类的注意力机制提取视觉与文本信息中的显著特征,并构建多模态融合模型用于VQA的答案预测。本文分别从视觉注意机制、视觉与文本协同注意机制与加入视觉语义概念的增强协同注意机制三个方面对VQA展开研究。主要研究工作如下:(1)针对传统VQA方法只采用全局图像特征,忽视图像区域的空间上下文信息,导致模型不能很好的理解细粒度级别的图像区域的问题,提出基于空间信息增强的视觉注意网络的视觉问答方法。该方法通过深层的卷积神经网络(Converlutional Neural Networks,CNN)抽取具有空间信息的中层图像特征,并将其输入到双向长短时间记忆(Bi-directional Long Short-Term Memory,Bi-LSTM)网络中,得到具有空间上下文信息的增强图像特征,之后引入基于区域的单模态视觉注意(Location-based Attention,LBA)模型提取图像特征中的显著区域特征,得到图像初始加权特征向量;同时,采用Bi-LSTM抽取问题语义特征,并与图像初始加权特征相融合,得到后续视觉注意网络的引导信息。针对单层的视觉注意网络的泛化能力不足的问题,本文通过堆叠多层注意力网络增强模型面对复杂输入时的推理与预测能力。实验表明,BiLSTM能有效的增强图像区域的空间上下文信息,并且多层的注意力网络有效的增强了融合模型的推理和预测能力,显著提升了VQA的性能。(2)针对多数VQA方法只采用单模态的视觉注意机制,而忽略文本注意机制对于输入问题(Question)语义信息抽取的重要性的问题,提出基于多模态交叉引导协同注意网络的视觉问答方法。该方法采用鲁棒的目标检测模型结合CNN抽取基于候选区域(Region Proposal,RP)的图像特征,同时利用双向门循环单元(Bi-directional Gated Recurrent Units,Bi-GRU)通过前馈和反馈GRU提取问题的高层语义特征;然后,采用没有引导信息的LBA模型分别提取图像和问题的显著特征,得到图像各区域的初始加权特征向量以及问题中各单词的初始加权特征向量。为了增强注意力模型的表达能力,该方法在多模态注意模型中引入一种新的非线性激活方法,并采用交叉引导的融合策略构建多模态交叉引导协同注意力网络,通过多步推理预测答案。实验表明,多模态交叉引导协同注意力网络可以充分的提取和利用视觉与文本中的显著特征,非线性激活方法能有效的提升模型的表达能力,从而提升模型在VQA数据集上的性能表现。(3)针对中、低层的图像特征与高层的问题语义特征抽象程度不同,导致多模态融合时出现间隙的问题,提出基于视觉语义概念的增强协同注意网络的视觉问答方法。该方法采用目标检测模型提取图像中的视觉语义概念,并引入语义注意机制选取与问题相关的视觉语义概念。为了充分抽取问题的高层语义特征,该方法采用分层结构分别从低层到中层再到高层逐层抽取问题的语义特征,并在每一层中采用序列化协同注意模型提取图像、问题和视觉语义概念的显著特征。最后,采用多层的前馈网络将在分层结构中得到的加权特征向量融合在一起,形成区分性强的特征向量,用于预测答案。实验证明,该方法能有效的减小图像特征与问题高层语义特征之间的融合间隙,同时针对问题的分层结构具有较强的语义抽取能力,该方法显著的提升了VQA的性能表现。