论文部分内容阅读
卷积神经网络在计算机视觉领域取得了突破性的进展,而神经网络语言模型和循环神经网络相关的算法的发展又推动了自然语言处理领域的进步。随着目标识别,神经网络翻译模型等相关研究领域取得了突破,视觉问答系统的研究越来越受到科研人员的重视。视觉问答系统与传统的问答系统不同之处在于,除了要理解文字形式提出的问题,还需要结合图像的内容来进行解答。为了推动视觉问答系统的研究,需要构建适合于训练模型的数据集。现有的数据集有DAQUAR,COCO-QA,Visual Genome,FVQA,VQA 1.0等等。这些数据集中的发展方向为增加图片的数量,丰富问题的内容,提高答案的准确度。目前的视觉问答算法可以分为基于传统机器学习的算法,基于联合嵌入的方法,基于注意力机制的算法,使用外部数据库算法等等。在介绍了视觉问答系统的研究现状之后,本文首先介绍了基础的神经网络模型,卷积神经网络模型,循环神经网络模型以及其改进模型长短期记忆模型,随后介绍了注意力机制以及其应用。本文发现不同的卷积神经网络模型对图像特征抽取层次不一样,因此本文使用了深度残差网络来提取图像的全局特征,用Mask R-CNN来提取图像的局部特征。另外,注意力模型来可以用来整合图像特征和问题编码,而使用堆叠的注意力模型可以进一步提高图像特征与问题编码之间的耦合性。基于以上发现,本文从网络架构,图像特征提取方式,问题编码方式以及注意力机制的使用方式详细介绍了本文所提出的两种算法:基于目标特征的视觉问答系统算法和双视角层叠注意力视觉问答系统算法。本文使用了Pytorch编程框架实现了文中提出的算法,并在VQA 1.0数据集上使用GPU进行训练以减少训练时间。针对本文提出的算法,首先通过对l2正则化,Dropout层,循环神经网络隐含层大小以及注意力层数量选取不同设置进行实验,研究其对模型整体效果的影响。实验结果表明,使用l2正则化,添加Dropout层,提高循环神经网络隐藏层大小以及使用两层注意力层有利于提高模型回答的准确度。在测试集上的实验结果表明,本文提出的算法可以从图片中提取出不同层次的信息,理解问题的含义并有效地结合两方面的信息给出合适的答案。与现有的其他模型相比,本文提出的算法在准确度方面有了一定的提升。最后本文给出了算法运行过程中的部分示例并讨论了算法的输出结果。