论文部分内容阅读
本文研究了利用自然语言文本描述对图像进行编辑的多模态问题。本文的目标是,输入一张原始图像以及一句自然语言文本描述,输出一张经过编辑的图像,并且图像在满足给定自然语言文本描述的同时,保留与文本描述无关的其他细节。在本文中,整体网络采用生成对抗网络结构。在生成器部分,通过引入重构损失,实现模型对于文本描述无关图像区域的保持。通过引入文本图像相关度损失,以一种半监督的方式,对生成器的训练进行指导,从而实现更精细化的利用文本描述对图像进行编辑。在判别器部分,结合判别损失以及条件判别损失,指导生成器生成更具真