论文部分内容阅读
近年来,研究者们将研究重点放到结合计算机视觉和自然语言处理的交叉领域。文字到图像生成任务就属于该领域的任务之一。具体来说,文字到图像生成任务是指给定描述物体颜色和形状等细节的一句话,通过生成网络生成符合输入语义的图像。因为一句话可以对应多张不同像素内容的图像,因此该任务的难点在于既要求生成图像和输入文字语义一致,又要求生成图像内容足够多样。文字到图像生成任务都是采用生成对抗网络作为基础框架。然而,因为该网络自身理论的不完善,使得在训练过程中会面临训练不稳定的情况。并且,为了使得生成图像足够的逼真自然,我们期望生成图像的分辨率足够大。但这样势必会带来大量的网络参数量和计算量。在本毕设中,我们针对具体的问题对应提出以下三个算法:1)针对训练过程不稳定的问题,我们提出基于感知金字塔对抗网络Perceptual Pyramid Adversarial Network(PPAN),采用金字塔结构以增强所有尺寸的特征表达。并且除了采用对抗损失函数间接地更新生成器参数,还额外采用了感知损失函数直接限制生成图像和真实图像特征级别的视觉信息。以上模块基于逐段嵌套的基础网络结构,不仅使得训练结构更加稳定,同时提升了生成图像的质量。2)针对于网络结构过于复杂的问题,我们提出基于金字塔注意力机制的轻量级动态条件对抗网络Lightweight Dynamic Conditional GAN with Pyramid Attention(LD-CGAN),力求在不降低生成图像质量的前提下,大幅度简化网络。在该算法中设计了网络的信息弥补理论。区别在于传统任务仅在输入层一次性输入语义信息,本算法首先将输入的文字特征进行无监督地语义分解,其次通过设计的条件操作模块将分解后的语义按照特征尺寸的从小到大次序进行持续不断地信息弥补。最终,相比于PPAN的网络参数量和计算量,本算法压缩率达80%,并且生成图像质量与最好模型结果相当。3)针对于生成图像质量较低的问题,我们提出基于细分类感知金字塔对抗网络Fine-grained Perceptual Pyramid Adversarial Network(FPAN),采用从整体到局部的训练策略。基于整体阶段生成的初始高质量图像,在局部阶段,采用单词特征对生成图像逐区域增强。并且判别内容引入逐单词级别的注意力机制,使得单词级别图像内容判别占据主导,充分利用单词特征来修正初始图像错误表达部分。最终,生成图像的质量大幅度超过之前最好的模型。文字到图像生成任务是指给定描述物体颜色和形状等细节的一句话,通过生成网络生成符合输入语义的图像。因为一句话可以对应多张不同像素内容的图像,因此该任务的难点在于既要求生成图像和输入文字语义一致,又要求生成图像内容足够多样。文字到图像生成任务都是采用生成对抗网络作为基础框架。然而,因为该网络自身理论的不完善,使得在训练过程中会面临训练不稳定的情况。并且,为了使得生成图像足够的逼真自然,我们期望生成图像的分辨率足够大。但这样势必会带来大量的网络参数量和计算量。在本毕设中,我们针对具体的问题对应提出以下三个算法:1)针对训练过程不稳定的问题,我们提出基于感知金字塔对抗网络Perceptual Pyramid Adversarial Network(PPAN),采用金字塔结构以增强所有尺寸的特征表达。并且除了采用对抗损失函数间接地更新生成器参数,还额外采用了感知损失函数直接限制生成图像和真实图像特征级别的视觉信息。以上模块基于逐段嵌套的基础网络结构,不仅使得训练结构更加稳定,同时提升了生成图像的质量。2)针对于网络结构过于复杂的问题,我们提出基于金字塔注意力机制的轻量级动态条件对抗网络Lightweight Dynamic Conditional GAN with Pyramid Attention(LD-CGAN),力求在不降低生成图像质量的前提下,大幅度简化网络。在该算法中设计了网络的信息弥补理论。区别在于传统任务仅在输入层一次性输入语义信息,本算法首先将输入的文字特征进行无监督地语义分解,其次通过设计的条件操作模块将分解后的语义按照特征尺寸的从小到大次序进行持续不断地信息弥补。最终,相比于PPAN的网络参数量和计算量,本算法压缩率达80%,并且生成图像质量与最好模型结果相当。3)针对于生成图像质量较低的问题,我们提出基于细分类感知金字塔对抗网络Fine-grained Perceptual Pyramid Adversarial Network(FPAN),采用从整体到局部的训练策略。基于整体阶段生成的初始高质量图像,在局部阶段,采用单词特征对生成图像逐区域增强。并且判别内容引入逐单词级别的注意力机制,使得单词级别图像内容判别占据主导,充分利用单词特征来修正初始图像错误表达部分。最终,生成图像的质量大幅度超过之前最好的模型。