论文部分内容阅读
视觉问答(Visual Question Answering,VQA)是近年兴起的一项人工智能研究热点。它指的是模型根据给定的图像信息回答人类所提出的问题。这些问题的内容涵盖了物体识别、场景感知、数目计算及视觉推理等各种生活中常见的任务。有别于传统的计算机视觉或自然语言处理的任务,视觉问答需要模型对给定的文本信息和视觉信息都进行充分理解,并要具备一定的推理能力才能够准确回答问题。因此,视觉问答也常被认为是一项终极人工智能任务(Ultimate AI task).本文的内容是针对视觉问答中的关键问题进行理论及方法研究。在第一章节中,本文先对视觉问答现有的数据集及代表性工作进行系统性介绍,然后对视觉问答发展当中的主要挑战和问题进行了总结。这些关键问题包括了:模型的可解释性、数据集中的强文本先验、模型的紧凑性、模型视觉特征的有限感受域以及模型对条件问题的推理能力等。随后,本文根据这些视觉问答中的关键问题和难点展开了深入性的探讨,提出了针对性的理论和方法。本论文的研究内容包括了:·针对视觉问答的可解释性问题,本文提出了一个基于多任务学习的视觉问答模型。该模型采用了一个神经网络枢纽结构(Pivot Structure),将图像描述(Image Captioning)和视觉问答两个任务进行结合。图像描述模块和视觉问答模块共享一个视觉通道,并根据模型所关注的视觉信息来生成一句短句来解释模型预测的依据。此外,模型的多任务结构能够帮助模型利用大量现成的多模态数据来帮助模型对多模态信息的理解,例如用于图像描述的数据集,从而提高模型回答问题的能力。·针对模型的紧凑性问题,本文提出了一个动态胶囊注意力算法(Dynamic Capsule Attention)。该动态注意力算法可以替代传统的多层注意力结构(Stacked Attention Layers),在使用一层注意力层的情况下完成多步视觉推理。该动态注意力算法能够帮助模型在保持高性能的同时显著地降低了模型的参数量。·针对视觉问答数据集中的强文本先验问题,本文提出了一个创新的非对称学习策略(Pairwise Inconformity Learning Scheme,PIL)来重点解决了由强文本先验所导致的模型知识惯性(Knowledge Inertia)的现象。PIL学习策略包含了多模态嵌入学习(Multimodal Embedding Learning)和一个基于动态边际的三元损失函数(Dynamic-margin based Triplet Loss),利用 VQA2.0 数据集中给出的图像对设置(两张相似的图像、相同的问题但不同的答案),强迫模型在训练中更多的通过视觉信息来回答问题,从而提升模型的回答准确率及可靠性。·针对模型的视觉感知域问题,本文提出了一个全新的多模态金字塔网络(Multi-modal Pyramid Network,MPN)。相较过往使用单尺度特征图的视觉问答模型,MPN网络充分利用卷积神经网络的金字塔结构,从多个尺度上感知潜在的问题信息,从而提高模型预测的准确性。此外,MPN还包含了一个至上而下的视觉推理方案(Top-Down Reasoning)来保持不同尺度上所学习到的多模态特征的语义一致性。·针对模型的推理能力问题,本文提出了一个深度三角图网络(Triangular Graph Neural Network)。该三角图网络对每个视觉问答样本构建了一个由问题节点和视觉区域节点的所组成的无向图。在这个图的三角连接关系中,问题节点起到了将文本信息的引入以及衔接视觉区域节点的作用,帮助模型获得高度问题相关的抽象视觉关系,从而提升模型的视觉推理能力。