论文部分内容阅读
图像描述生成是最近几年来十分热门的研究方向,是一个多模态的问题,包含了计算机视觉和自然语言处理两大领域。本文通过模拟人类的注意力机制,研究提取视觉显著特征的方法,最后借助编解码框架生成图像句子描述。本文首先研究多解码器融合的注意力图像描述生成模型,然后以此为基础,利用策略梯度对模型进行优化、利用区分性引导在优化后的模型上研究相似图像内容的不同句子描述。在MSCOCO图像描述数据集上的实验证明了论文研究的图像描述方法的性能。本文主要研究内容如下:1)针对现有图像描述方法大多难以充分利用空间和目标特征,导致图像描述不足以反映图像丰富内容的问题,论文研究空间注意力和目标注意力提取显著特征,并将其分别引入到多层解码器融合架构,提出基于多解码器融合的注意力图像描述生成方法。多层解码器由全局解码层、目标解码层和空间解码层三层组成,并形成层层递进的解码结构。对于目标注意力显著特征是将空间整体特征、目标特征以及全局解码器隐藏状态信息输入到目标注意力层生成的,然后将其输入到目标解码器获得局部目标特征解码;对于空间注意力显著特征是将目标整体特征、空间特征、目标注意力特征以及目标解码器隐藏状态信息输入到空间注意力层生成的,然后将其输入到空间解码器获得局部空间特征解码;最终将多层解码器的隐藏状态融合后用于生成图像描述。实验结果表明,这种方法能有效利用空间和目标特征,显著提高了模型的性能。2)针对现有图像描述方法在训练阶段利用真实单词,而在测试阶段使用预测单词引导后续单词生成带来的曝光偏差问题,论文在已研究的多解码器融合的注意力图像描述模型基础上,提出基于策略梯度优化的注意力图像描述生成方法。该方法在多层解码器融合注意力图像描述模型上,提出的策略梯度算法以句子层次的评价方法对蒙特卡罗采样生成句子描述的评价作为奖赏,同时对贪婪搜索生成句子描述的评价作为基线,将基线与奖赏的差值构成梯度,梯度为正给予蒙特卡罗采样正向激励,否则抑制采样,实现句子描述生成模型的优化。实验结果表明,该方法解决了曝光偏差,进一步提高了模型的性能,生成了更加自然,接近于人类的图像描述。3)针对现有的图像描述生成方法对于相似却不同的图像给出相同图像描述的问题,论文在策略梯度优化的注意力图像描述生成模型基础上,研究图像查询模型获得区分性奖赏,提出了基于区分性引导的注意力图像描述生成方法。该方法的区分性损失是通过视觉语义嵌入的方式预训练一个图像描述到图像查询模型,并在策略梯度算法下使用查询模型对蒙特卡罗采样生成的图像描述打分获得。总的区分性奖赏通过加权区分性损失与蒙特卡罗采样句子评价的奖赏求和生成。实验结果表明,该方法进一步提升了模型的性能,同时生成的图像描述更加具有区分性。