论文部分内容阅读
视觉问答(Visual Question Answering,VQA)是最近几年兴起的横跨自然语言处理和计算机视觉两个领域的热门研究方向。论文从问题文本语义理解的角度出发,研究问题文本和图像交叉模态的融合,分别从文本引导双分支注意力网络、问题文本分解的非平衡融合、多编码问题文本分解的完全非平衡融合三个方面对视觉问答任务展开研究,以使视觉问答模型生成更加精准的开放式答案。论文主要研究工作如下:1)针对现有文本引导视觉问答方法存在的文本语义表示和模态间信息共享不充分的问题,研究问题文本语义特征的快速提取和双分支注意力网络下交叉模态间差异性和互补性信息的提取,提出基于文本引导双分支注意力网络的视觉问答方法。该方法主要的工作亮点在于:i)利用Glove特征与单词位置构成的联合嵌入向量下的1D-GCNN并行编码获得文本语义特征表示;ii)构建多模态交叉引导协同注意力和多模态分解高次协同注意力组成的双分支网络,挖掘交叉模态间的信息差异和互补,提取各自模型联合特征;iii)在文本语义特征引导的权重学习中自动生成双分支注意力网络提取的模态联合特征的权重,对其加权融合形成最终交叉模态联合特征。VQA2.0和COCO-QA数据集的实验证明了基于问题文本语义表示和交叉模态间特征增强的TDAN视觉问答方法的有效性。2)针对现有视觉问答方法对问题文本从整体上进行语义理解,导致对图像内容理解不具有明确针对性问题,研究问题文本分解模块和非平衡融合模块,提出基于问题文本分解的非平衡融合视觉问答方法。该方法主要的工作亮点在于:i)对Glove特征与单词位置构成的联合嵌入向量经1D-GCNN并行编码后的文本语义特征表示进行问题文本头和问题文本尾的分解,问题文本尾包含对象信息,问题文本头包含问题类型信息;ii)研究特征增强层结构,并将其堆叠在多模分解双线性融合模型上构建出非平衡融合模块,获得不平衡的联合特征。VQA2.0和COCO-QA数据集的实验证明,在预测答案生成过程中,提出的基于问题文本分解的非平衡融合视觉问答方法充分利用了问题文本不同部分语义信息对重要图像内容理解的引导,同时也验证了问题分解和非平衡融合的合理性。3)针对本论文研究的非平衡融合模块仍然带有部分平衡融合的成分,导致模块要叠加多层特征增强层,大大提高了复杂度的问题,研究问题文本多编码下的语义提取模块和完全非平衡融合模块,提出了基于问题文本分解的非平衡融合视觉问答方法优化后的多编码问题文本分解的完全非平衡融合视觉问答方法。该方法的工作亮点在于:i)采用双向GRU和一维门控卷积神经网络对由预训练固定向量和随机初始化向量组成的问题嵌入向量编码,形成联合编码向量;ⅱ)利用特征增强指数向量优化原始扩展联合特征,简化非平衡融合模块中的特征增强层结构,构建完全非平衡融合模块。在VQA 2.0和COCO-QA数据集上的实验证明,提出的方法可以充分利用不同词向量嵌入和不同编码对问题文本语义的挖掘,有助于答案预测准确率的提高,同时该方法的完全非平衡融合模型的复杂度也大大简化。