论文部分内容阅读
图像语义理解是计算机视觉领域的热门研究问题之一,主要包含图像分类、目标检测、语义分割和多模态图像理解(图像描述)等研究课题。多模态图像理解的目的是生成一句流畅的自然语言来描述图像中的物体、关系和事件等丰富全面的内容。近年来,飞速发展的神经网络为多模态图像理解研究带来新的思路。本文主要关注如何将图像完整的语义信息表达出来,因此以多模态图像理解作为研究内容,为图像语义理解带来新的可行思路和方法。现有的多模态图像理解模型通常采用编码器-解码器框架,其中常用的自回归解码器生成的句子连贯性较好,但存在串行解码速度慢、语义不准确等问题,而传统的非自回归解码器虽然并行解码速度快,但生成的描述句子质量较差。针对两种解码器的缺点,本文首先提出遮蔽非自回归解码器;此外,现有解码器均使用交叉熵作为损失函数,存在着训练中同等对待质量不一的数据等问题,针对这一问题,本文进一步提出增强交叉熵损失和随机弃用模块。具体工作如下:1.针对自回归解码器解码速度慢、非自回归解码器生成句子质量差等问题,本文提出遮蔽非自回归解码器。本文首先选定若干种遮蔽比例,在训练过程中,给定每一对图像及其真值句子,随机选取一种遮蔽比例和若干遮蔽位置来遮蔽真值句子中的单词,训练目标是预测完整的真值句子。由于采用的解码器借鉴非自回归解码器的网络框架,因此保留非自回归方式的并行解码速度快的优点,同时采用遮蔽式的训练也融合了自回归解码的直接建模目标语言的条件式分布的优点。在预测过程中,本文采用若干个固定的阶段从完全遮蔽的单词序列到完全无遮蔽的单词序列并行生成图像描述。在MSCOCO公开数据集的实验中表明,遮蔽非自回归解码器的并行解码速度快,在4阶段和7阶段解码中是相同配置的自回归解码器的2.8倍和1.66倍;生成的描述句子的质量较高,更准确有效地保留语义内容,在更符合人类评价标准的SPICE指标上达到21.1,超过自回归解码器0.9,超过非自回归解码器4.4。2.针对交叉熵损失函数(CEL)与评价指标不一致和训练中同等对待质量不一的数据问题,本文提出增强交叉熵损失(RCEL)和随机弃用(SD)。在增强交叉熵损失函数中,本文首先利用选定的评价指标来计算每个真值句的质量得分,然后与真值句的每个单词的对数概率相乘得到损失函数;该方式将真值句的质量与损失函数结合起来,不仅区别对待质量不一的数据,还间接优化评价指标来缓解损失函数和评价指标不一致问题。在随机弃用模块中,在不损失语料库多样性的情况下,自动选择高质量的真值语句和摒弃噪声。增强交叉熵损失和随机弃用是通用的,且可结合成RCEL-SD。在MSCOCO基准数据集上的实验结果表明,本文提出的RCEL-SD在三个最新多模态图像理解模型的7个评价指标上均优于CEL,在所有模型上每个指标平均提高分值为BLEU-1 0.74,BLEU-2 0.90,BLEU-3 0.95,BLEU-4 0.85,METEOR 0.44,ROUGE 0.52,CIDEr 4.38,SPICE 0.57。