基于生成对抗网络的文本图像生成的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:love527351314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,研究者们将研究重点放到结合计算机视觉和自然语言处理的交叉领域。文字到图像生成任务就属于该领域的任务之一。具体来说,文字到图像生成任务是指给定描述物体颜色和形状等细节的一句话,通过生成网络生成符合输入语义的图像。因为一句话可以对应多张不同像素内容的图像,因此该任务的难点在于既要求生成图像和输入文字语义一致,又要求生成图像内容足够多样。文字到图像生成任务都是采用生成对抗网络作为基础框架。然而,因为该网络自身理论的不完善,使得在训练过程中会面临训练不稳定的情况。并且,为了使得生成图像足够的逼真自然,我们期望生成图像的分辨率足够大。但这样势必会带来大量的网络参数量和计算量。在本毕设中,我们针对具体的问题对应提出以下三个算法:1)针对训练过程不稳定的问题,我们提出基于感知金字塔对抗网络Perceptual Pyramid Adversarial Network(PPAN),采用金字塔结构以增强所有尺寸的特征表达。并且除了采用对抗损失函数间接地更新生成器参数,还额外采用了感知损失函数直接限制生成图像和真实图像特征级别的视觉信息。以上模块基于逐段嵌套的基础网络结构,不仅使得训练结构更加稳定,同时提升了生成图像的质量。2)针对于网络结构过于复杂的问题,我们提出基于金字塔注意力机制的轻量级动态条件对抗网络Lightweight Dynamic Conditional GAN with Pyramid Attention(LD-CGAN),力求在不降低生成图像质量的前提下,大幅度简化网络。在该算法中设计了网络的信息弥补理论。区别在于传统任务仅在输入层一次性输入语义信息,本算法首先将输入的文字特征进行无监督地语义分解,其次通过设计的条件操作模块将分解后的语义按照特征尺寸的从小到大次序进行持续不断地信息弥补。最终,相比于PPAN的网络参数量和计算量,本算法压缩率达80%,并且生成图像质量与最好模型结果相当。3)针对于生成图像质量较低的问题,我们提出基于细分类感知金字塔对抗网络Fine-grained Perceptual Pyramid Adversarial Network(FPAN),采用从整体到局部的训练策略。基于整体阶段生成的初始高质量图像,在局部阶段,采用单词特征对生成图像逐区域增强。并且判别内容引入逐单词级别的注意力机制,使得单词级别图像内容判别占据主导,充分利用单词特征来修正初始图像错误表达部分。最终,生成图像的质量大幅度超过之前最好的模型。文字到图像生成任务是指给定描述物体颜色和形状等细节的一句话,通过生成网络生成符合输入语义的图像。因为一句话可以对应多张不同像素内容的图像,因此该任务的难点在于既要求生成图像和输入文字语义一致,又要求生成图像内容足够多样。文字到图像生成任务都是采用生成对抗网络作为基础框架。然而,因为该网络自身理论的不完善,使得在训练过程中会面临训练不稳定的情况。并且,为了使得生成图像足够的逼真自然,我们期望生成图像的分辨率足够大。但这样势必会带来大量的网络参数量和计算量。在本毕设中,我们针对具体的问题对应提出以下三个算法:1)针对训练过程不稳定的问题,我们提出基于感知金字塔对抗网络Perceptual Pyramid Adversarial Network(PPAN),采用金字塔结构以增强所有尺寸的特征表达。并且除了采用对抗损失函数间接地更新生成器参数,还额外采用了感知损失函数直接限制生成图像和真实图像特征级别的视觉信息。以上模块基于逐段嵌套的基础网络结构,不仅使得训练结构更加稳定,同时提升了生成图像的质量。2)针对于网络结构过于复杂的问题,我们提出基于金字塔注意力机制的轻量级动态条件对抗网络Lightweight Dynamic Conditional GAN with Pyramid Attention(LD-CGAN),力求在不降低生成图像质量的前提下,大幅度简化网络。在该算法中设计了网络的信息弥补理论。区别在于传统任务仅在输入层一次性输入语义信息,本算法首先将输入的文字特征进行无监督地语义分解,其次通过设计的条件操作模块将分解后的语义按照特征尺寸的从小到大次序进行持续不断地信息弥补。最终,相比于PPAN的网络参数量和计算量,本算法压缩率达80%,并且生成图像质量与最好模型结果相当。3)针对于生成图像质量较低的问题,我们提出基于细分类感知金字塔对抗网络Fine-grained Perceptual Pyramid Adversarial Network(FPAN),采用从整体到局部的训练策略。基于整体阶段生成的初始高质量图像,在局部阶段,采用单词特征对生成图像逐区域增强。并且判别内容引入逐单词级别的注意力机制,使得单词级别图像内容判别占据主导,充分利用单词特征来修正初始图像错误表达部分。最终,生成图像的质量大幅度超过之前最好的模型。
其他文献
简要分析海林市境内分布的渤海古墓群形制特点。 Briefly analyze the characteristics of the system of the ancient tombs of Bohai Sea distributed in Hailin.
【目的】象其他慢性疾病一样,许多重症肌无力(myasthenia gravis,MG)患者合并有情感障碍,其中最主要的症状是焦虑、失眠。长期失眠又加重MG病情,甚至导致肌无力危象。虽然也
会议
<正>河北省张家口市的宣化古城是明长城九镇之一,古城墙始建于明洪武27年(1394年),周长12120米,正方形城堡,共设有七个城门,高远门位于古城北城墙西段。宣化区自2006年启动古
会议
历史已经并将继续证明,没有中国共产党的领导,就没有现代中国的一切。打铁必须自身硬。党要团结带领人民进行伟大斗争、推进伟大事业、实现伟大梦想,必须深入推进党的建设新的伟
报纸
目前国内高速公路建设项目存在着金额投资大、建设周期长、建设环境复杂的情况,在高速公路建设的诸多工作当中,财务管理工作首当其冲,对此面对财务管理工作中存在的问题,需要尽快想办法予以解决。结合改背景,本文就以高速公路建设单位在财务管理工作中存在的一些问题进行了研究,就具体问题给出了部分建议,希望对促进建设单位的财务管理工作作出一些贡献。  高速公路 财务管理 建设单位  随着社会经济发展,高速公路事业
目的:观察中药熏洗对痉挛型脑瘫患儿踝关节活动度的改善情况。方法:本研究采用分层随机对照研究方法。选择2009年6月-2010年12月辽宁中医药大学附属医院小儿脑瘫康复中心进行
经多年观察,红蜡蚧在宜昌市夷陵区柑橘每年发生1代,以成虫和若虫群集树梢、叶片和果梗上吸取汁液,并分泌蜜露,诱发煤烟病,影响光合作用,削弱树势,致使产量减少,品质降低。严
钢渣作为一种炼钢过程中产生的废弃物,与氢氧化铝混合在高温条件下改性,以去除废水中的锌离子。利用响应面曲线法优化的最佳改性,其中影响因素为钢渣和Al(OH)3的比例、改性温
“全路第一个指挥调度海拔最高的铁路,全路最年轻的总调度。”青藏铁路公司的同仁这样评价和赞许青藏铁路调度所主任、总调度 长陈敏。   “我自己加了一条:个子最低,指挥和调度世界海拔最高的铁路。”陈敏幽默地补充。   瘦小的个头,清秀的面庞,快捷的语速,精确的表述,坚定的眼神,这是记者眼前的陈敏。2006年6月,他作为铁道部工作组成员来 到西宁协调青藏铁路的运营工作。就在铁路即将通车前夕,他被任命担任
在园林植物的枝条上常满布红色“小痘痘”。它贴在树枝上一动不动,掀开贴在树枝上的“小痘痘”后发现,是一种虫子。这种虫子背部中央都有分泌蜡质的小孔,颜色暗红,背部有4条