论文部分内容阅读
图像问答是一个很有挑战性的任务,它的目标是把计算机视觉和自然语言处理联系起来。在这个任务中,给定一张图片和一个相关的问题,我们要求机器能根据图像内容,再加上一些常识来推理得到问题的答案。因此,为了完成图像问答这个任务,机器必须具有跨模态的理解能力(视觉和语言),而这一点比那些在单一模态下的任务(图像识别,文档分类等)要求更高。图像问答这个任务的意义体现在多个方面。首先,从计算机视觉这个研究领域看,为了让机器能够充分理解图片的内容,继图片识别和描述这两个任务之后,图像问答是一个很自然的后续,因为这个任务要求对图像的内容有更精细的理解。其次,从自然语言处理这个领域看,为了能够真正理解人类的语言,如何把语言对应到视觉世界这一步是必不可少的。虽然计算机视觉和自然语言处理同属人工智能的范畴,但是从历史上看,这两个领域的发展是分开的。图像问答任务的提出表明这两个领域逐渐开始融合,而它们的融合是构建真正的通用人工智能的必经之路。近几年内,图像问答发展迅速,受到来自计算机视觉和自然语言处理领域的广泛关注,提出了很多解决这项任务的方法。大多数方法采取了一个端到端的流程,用一个预训练的卷积神经网络提取图片特征,用一个递归神经网络来表征问题,然后把图片特征和问题特征连结起来预测答案。尽管这种端到端的方法的准确率还行,但是整个图像问答的系统变成了一个黑箱,我们只知道输入和输出,却不知道中间发生了什么。因此,我们首先提出把这种端到端的系统分解成两步:解释和推理,通过对中间结果的可视化来实现一个解释性更高的图片问答模型。我们的这个模型达到了目前最高的准确率,并且具有一定程度的可解释性。此外,大多数图片问答的方法都致力于提高预测答案的准确性,但是忽略了对答案的解释。我们认为,与答案本身相比,答案的解释同样甚至更加重要,因为它使问答过程更易于理解和跟踪。为此,我们提出了“带解释的图像问答”的新任务,其中模型不仅需要预测问题的答案,同时也解释所预测的答案。我们首先构造一个新的数据集,然后在多任务学习架构中解决带解释的图像问答问题。我们开展了用户调查,以验证我们方法合成的解释的质量。而且,在这个模型中,我们引人了注意力机制,来提升模型的性能。从定量的角度看,我们的模型不仅可以产生有意义的文本句子来证明答案的正确性,还可以提高答案预测的准确率。我们的模型在一个标准的图像问答数据集上明显优于目前最先进的方法。