论文部分内容阅读
图像描述是指用于解释图像内容的语言,也被称为图像注释或图像标题。图像描述生成任务则旨在通过一定的技术和方法实现图像描述的自动生成。现有方法由于存在通识实体(即图像中的对象)识别不准确和命名实体信息生成不足的问题,导致对图像中的对象识别错误或只能生成一些简单直白的描述,从而制约了图像描述生成技术在实际场景中的应用。本文针对上述两种问题,提出一种基于实体语义信息的图像描述生成方法。主要研究内容包括以下三个方面:(1)基于双向注意力机制的图像描述生成方法在现有方法中,注意力机制根据解码器中当前时刻的语义信息挑选出重要的局部图像特征,进而依靠解码器的破译能力将图像特征解码成文字。然而,这一单向的注意力机制并未检验语义信息与图像内容的一致性。因此,所生成的描述在准确性方面有所欠缺。为解决上述问题,本文提出了一种基于双向注意力机制的图像描述生成方法,加入了由图像特征到语义信息的注意力计算,旨在根据图像内容调整解码器中的语义信息,进而生成更加准确的图像描述。本文在MSCOCO和Flickr30k两个权威的图像描述生成数据集上进行了实验,较基线模型而言,在双语评估替补(Bilingual Evaluation Understudy-4,简称BLEU-4)上可以分别提升 1.5%和0.8%,并且达到了与同期国际先进模型可比的性能。(2)图像描述生成中人名实体抽取及填充方法一条确切的描述往往包含着命名实体信息。比如,“梅西主罚点球”可以向读者传递图像中具体的主人公信息。而现有方法针对这一图像的生成结果“足球场上的一名运动员”则较为浅显,这一描述虽然概括了图像的主题,但显然缺少具体的对象。针对这一问题,本文提出了一种图像描述生成中人名实体抽取及填充方法。具体地,本文首先生成带有空槽(待填充人名实体)的初始描述;然后将人名实体抽取问题转化为智能问答问题,通过机器阅读理解模型从图像的相关文档中抽取出人名实体,并将其填充至上述空槽中。本文从维基百科爬取了(图像、描述和相关文档)三元组,构建并划分了数据集。本文基于此数据集进行了实验,在人名实体抽取的准确率上达到52.31%,较基线模型而言,本方法在BLEU-4上可提升2.93%。(3)包含多类型命名实体的图像描述生成方法包含多个命名实体的描述能够传递更为丰富的信息。比如,“刘翔在2004年雅典奥运会110米栏的决赛中夺冠”描述中,包括了人物、时间、事件等多类型的命名实体信息。为此,本文进行了包含多类型命名实体的图像描述生成方法的研究。现有方法均采用先生成模板,再填充命名实体的两阶段策略。而本文将命名实体的获取和填充问题转化为生成问题,通过一个端到端的模型,直接生成最终的图像描述。上述方法在GoodNews数据集上进行了实验。实验结果显示,该方法在BLEU评测指标上优于目前的最优模型。上述三个方面的研究中,第一部分的研究,提高了图像描述中通识实体(对象)信息的准确性。第二部分和第三部分的研究,实现了从仅包含单一命名实体到包含多类型命名实体的图像描述生成。这些研究对图像描述生成在实际场景中的应用起到了积极的作用。