论文部分内容阅读
文中研究了化妆领域中基于文本的细粒度视觉推理问题,具体探究了一个新颖的多模态任务,即根据有序的化妆步骤描述,对化妆过程中打乱顺序的人脸图片进行排序。针对这个新颖的任务,通过数据的处理和分析,提出了两个排序模型:第一个排序模型从单模态的角度出发,只利用图片的信息进行排序;第二个模型从多模态的角度出发,通过建立文本描述和图片之间的联系来指导图片排序。在YouMakeup VQAChallenge数据集上进行了详实的实验以及分析,实验结果表明,所提出的两个模型在不同的图片对数据上具有互补性,在美妆图片排序