论文部分内容阅读
文本生成图像技术通过对文本中的语义信息进行分析、将文本的语义信息映射为对应的像素信息,从而合成一张或多张符合表达文本描述的图像。文本生成图像技术不仅可以减少用户在互联网上获取图像的代价,还可以模拟人们对相同文本描述的不同想象,因此文本生成图像技术具有重要的研究价值。另外一方面,利用文本生成图像技术实时对文本或对话内容进行可视化再现、利用文本生成图像技术实现文本的视觉特征提取,并利用文本视觉特征对图像视觉识别进行优化,可以广泛地应用于计算机教育、社交媒体娱乐等领域。利用文本数据进行视觉合成面临着许多挑战,如面向社交文本生成图像应用的生成对抗网络更多专注于提高合成图像的质量,而忽视文本理解的多样性;传统生成对抗网络存在合成图像与对应真实图像外观不一致的问题,合成图像不能满足用户的期望。同时,对社交媒体图像进行视觉识别应用也面临着许多困难,如现有的社交媒体图像数据视觉识别方法需要使用特定的数据集,图像数据对应的文本数据的利用度不高。本文以文本生成图像作为研究对象,从现有深度学习的方法和框架入手,重点研究基于生成对抗网络的文本生成图像方法。首先利用多样性生成对抗网络研究了基于文本的多样性图像合成;然后利用注意力机制设计多样性条件生成对抗网络,并在网络中加入模式寻找准则,提高合成图像多样性特征;进一步探讨真实图像与合成图像之间的相对关系、以及类型一致性关系对生成对抗网络的影响,提出基于类型一致性的相对多样性条件生成对抗网络模型;最后本文将基于文本生成图像的文本视觉表示方法应用于社交媒体数据的视觉处理,研究基于文本视觉表示的图像视觉识别。具体来说,本文主要的研究贡献归纳如下:(1)提出了基于随机噪声向量的多样性生成对抗网络模型,实现基于单条文本描述同时生成多张多样性显著的合成图像。传统生成对抗网络对输入的多个随机噪声向量不敏感,在保证生成图像的质量的前提下,针对“如何同时生成一批形态各异的合成图像”这一科学问题,提出了基于多样性生成对抗网络的文本生成图像方法,将传统的“单鉴别器——单生成器”对抗模型扩展成“单鉴别器——多生成器”对抗模型,将单一文本特征与多个随机噪声进行融合输入到多个生成器组成的复合生成器中进行训练,并将复合生成器与单个鉴别器进行对抗学习,实现了“单输入——多输出”的数据流。并对共享的单鉴别器和多生成器的条件和非条件损失函数进行设计,实现多样性生成器的同步优化。(2)提出了基于注意力机制的多样性条件生成对抗网络模型,将文本单词和合成图像区域进行关联,提高合成图像的质量。为突破传统生成对抗网络的“具有相似文本上下文信息的图像趋向于描述相似的场景”假设限制,本文设计了基于注意力机制的多样性条件生成对抗网络,将文本中的单词与K张合成图像的子区域进行注意力关联,从而提高合成图像对输入文本的敏感性;然后利用模式寻找准则,利用K组噪声向量与K张合成图像之间的相互关系,交叉计算K组噪声特征差与图像特征差的比值,提高合成图像的多样性特征。(3)提出了基于类型一致性的相对多样性条件生成对抗网络模型,解决了传统生成对抗网络中合成图像与真实图像之间的主要视觉特征不一致问题。为解决传统生成对抗网络中“合成图像与对应真实图像之间视觉差异明显”的问题,在多样性条件生成对抗网络的研究基础上,通过挖掘合成图像与真实图像之间的相对关系、合成图像和真实图像的类型一致性,提出了相对鉴别规则和类型一致性规则,利用相对条件损失估计合成图像相对为真的概率,从而改进合成图像质量;将合成图像的视觉特征与真实图像的视觉特征进行组合,使用softmax层和交叉熵估计组合特征的概率类型,从而在全局空间上,利用类型一致性损失保持合成图像和对应真实图像类型之间的视觉特征一致性。(4)开展了基于文本生成图像的视觉识别应用,利用文本的识别表示,提高图像分类和语义识别的性能。面向图像视觉识别的应用场景,提出了基于文本视觉表示的社交媒体图像数据视觉识别模型,模型通过利用图像编码器提取K张合成图像共有的视觉特征表示,实现文本信息在视觉特征空间中的视觉解释;最后将真实图像的图像级别特征、文本基本特征和本文视觉表示进行多源特征融合,再将融合特征送到分类器中进行训练,从而有效的提高真实图像视觉识别的性能。本文在加利福尼亚理工学院的200类鸟类(2011版)数据集和牛津102类鲜花数据集对提出的生成对抗网络模型进行验证,在合成图像质量、多样性等指标上对比了本文所提出的网络和现有的生成对抗网络模型,并在COCO数据集上对基于注意力机制的多样性条件生成对抗网络进行可视化验证。相关实验结果表明提出的文本生成图像方法可以有效地改进合成图像的质量和多样性。本文也在加利福尼亚理工学院的200类鸟类(2011版)数据集、牛津102类鲜花数据集和MS COCO数据集对提出的基于文本生成图像的视觉识别模型进行了验证,并在视觉识别准确率指标上与相关的网络进行对比,实验结果证明文本视觉表示可以有效改进图像视觉识别的性能。