基于深度学习的文本生成图像技术研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户：flyingfish521

【摘要】

：

【作者】

：

胡涛

【机构】

：

武汉大学

【出处】

：

武汉大学

【发表日期】

：

2020年01期

【关键词】

：

生成对抗网络文本生成图像文本视觉表示视觉识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本生成图像技术通过对文本中的语义信息进行分析、将文本的语义信息映射为对应的像素信息,从而合成一张或多张符合表达文本描述的图像。文本生成图像技术不仅可以减少用户在互联网上获取图像的代价,还可以模拟人们对相同文本描述的不同想象,因此文本生成图像技术具有重要的研究价值。另外一方面,利用文本生成图像技术实时对文本或对话内容进行可视化再现、利用文本生成图像技术实现文本的视觉特征提取,并利用文本视觉特征对图像视觉识别进行优化,可以广泛地应用于计算机教育、社交媒体娱乐等领域。利用文本数据进行视觉合成面临着许多挑战,如面向社交文本生成图像应用的生成对抗网络更多专注于提高合成图像的质量,而忽视文本理解的多样性;传统生成对抗网络存在合成图像与对应真实图像外观不一致的问题,合成图像不能满足用户的期望。同时,对社交媒体图像进行视觉识别应用也面临着许多困难,如现有的社交媒体图像数据视觉识别方法需要使用特定的数据集,图像数据对应的文本数据的利用度不高。本文以文本生成图像作为研究对象,从现有深度学习的方法和框架入手,重点研究基于生成对抗网络的文本生成图像方法。首先利用多样性生成对抗网络研究了基于文本的多样性图像合成;然后利用注意力机制设计多样性条件生成对抗网络,并在网络中加入模式寻找准则,提高合成图像多样性特征;进一步探讨真实图像与合成图像之间的相对关系、以及类型一致性关系对生成对抗网络的影响,提出基于类型一致性的相对多样性条件生成对抗网络模型;最后本文将基于文本生成图像的文本视觉表示方法应用于社交媒体数据的视觉处理,研究基于文本视觉表示的图像视觉识别。具体来说,本文主要的研究贡献归纳如下:（1）提出了基于随机噪声向量的多样性生成对抗网络模型,实现基于单条文本描述同时生成多张多样性显著的合成图像。传统生成对抗网络对输入的多个随机噪声向量不敏感,在保证生成图像的质量的前提下,针对“如何同时生成一批形态各异的合成图像”这一科学问题,提出了基于多样性生成对抗网络的文本生成图像方法,将传统的“单鉴别器——单生成器”对抗模型扩展成“单鉴别器——多生成器”对抗模型,将单一文本特征与多个随机噪声进行融合输入到多个生成器组成的复合生成器中进行训练,并将复合生成器与单个鉴别器进行对抗学习,实现了“单输入——多输出”的数据流。并对共享的单鉴别器和多生成器的条件和非条件损失函数进行设计,实现多样性生成器的同步优化。（2）提出了基于注意力机制的多样性条件生成对抗网络模型,将文本单词和合成图像区域进行关联,提高合成图像的质量。为突破传统生成对抗网络的“具有相似文本上下文信息的图像趋向于描述相似的场景”假设限制,本文设计了基于注意力机制的多样性条件生成对抗网络,将文本中的单词与K张合成图像的子区域进行注意力关联,从而提高合成图像对输入文本的敏感性;然后利用模式寻找准则,利用K组噪声向量与K张合成图像之间的相互关系,交叉计算K组噪声特征差与图像特征差的比值,提高合成图像的多样性特征。（3）提出了基于类型一致性的相对多样性条件生成对抗网络模型,解决了传统生成对抗网络中合成图像与真实图像之间的主要视觉特征不一致问题。为解决传统生成对抗网络中“合成图像与对应真实图像之间视觉差异明显”的问题,在多样性条件生成对抗网络的研究基础上,通过挖掘合成图像与真实图像之间的相对关系、合成图像和真实图像的类型一致性,提出了相对鉴别规则和类型一致性规则,利用相对条件损失估计合成图像相对为真的概率,从而改进合成图像质量;将合成图像的视觉特征与真实图像的视觉特征进行组合,使用softmax层和交叉熵估计组合特征的概率类型,从而在全局空间上,利用类型一致性损失保持合成图像和对应真实图像类型之间的视觉特征一致性。（4）开展了基于文本生成图像的视觉识别应用,利用文本的识别表示,提高图像分类和语义识别的性能。面向图像视觉识别的应用场景,提出了基于文本视觉表示的社交媒体图像数据视觉识别模型,模型通过利用图像编码器提取K张合成图像共有的视觉特征表示,实现文本信息在视觉特征空间中的视觉解释;最后将真实图像的图像级别特征、文本基本特征和本文视觉表示进行多源特征融合,再将融合特征送到分类器中进行训练,从而有效的提高真实图像视觉识别的性能。本文在加利福尼亚理工学院的200类鸟类（2011版）数据集和牛津102类鲜花数据集对提出的生成对抗网络模型进行验证,在合成图像质量、多样性等指标上对比了本文所提出的网络和现有的生成对抗网络模型,并在COCO数据集上对基于注意力机制的多样性条件生成对抗网络进行可视化验证。相关实验结果表明提出的文本生成图像方法可以有效地改进合成图像的质量和多样性。本文也在加利福尼亚理工学院的200类鸟类（2011版）数据集、牛津102类鲜花数据集和MS COCO数据集对提出的基于文本生成图像的视觉识别模型进行了验证,并在视觉识别准确率指标上与相关的网络进行对比,实验结果证明文本视觉表示可以有效改进图像视觉识别的性能。

其他文献

巧用“空中课堂”资源,优化英语课堂教学

随着信息技术的快速发展,合理运用现代科技和教育资源提高课堂教学质量,是现代教育发展的重要趋势。教育部制订的《义务教育英语课程标准（2017年版）》明确提出:"教师要根据教学目标、学习内容、学校条件和学生实际情况,积极学习并在课堂教学中合理运用现有的教学资源和现代教育技术,使各种教育技术和手段科学、合理、恰当、简约地为提高英语学习效果服务。"英语"空中课堂"就是有效的学习平台,拓展了更广阔的教

期刊

连锁股东与企业多元化经营:加速扩张还是聚焦主业

在多元化经营浪潮逐渐消退的现实情境下,回归主业已经成为新的经营趋势,作为对企业行为决策有重要影响的连锁股东在多元化经营中扮演怎样的角色?以2007—2019年沪深两市企业为样本,从“归核效应”和“扩张效应”双重视角刻画了连锁股东对企业多元化经营的影响。研究发现,连锁股东有效抑制了企业多元化经营程度,即呈现“归核效应”,其主要作用机制为缓解融资约束和提高公司治理水平;异质性研究发现,在有连锁股东委派

期刊

连锁股东多元化经营归核效应扩张效应多元化经营价值

全天候多功能户外防寒服装的设计与评价

为了满足户外运动的需求，特别是针对早、中、晚温差较大的户外环境，设计了一款全天候多功能户外防寒服。从设计需求、设计要点及实现手段3个方面，总结了多功能户外防寒服的设计原则。重点考虑服装款式和多功能实现手段，将多种功能集成于一件服装中。通过单件服装的形态变化适应不同气温条件下人体着装的需求，同时利用功能转化将服装的部件转变为户外装备，从而增加收纳能力、减少负重。采用暖体假人实验，验证多功能户外防寒服

期刊

多功能设计防寒服装户外运动暖体假人

基于“空中课堂”的小学数学线上教学模式初探

2020年,受疫情影响,世界多个国家的大、中、小学都利用互联网技术组织学生线上学习。无疑,这种网络环境下的线上学习在特殊时期是唯一可以采取的学习形式。线上授课形式在大学的教育教学中早有应用先例,但对于小学教师和学生来说,面临的却是全新的挑战。如何保证教学质量?如何发展学生能力?如何使线上教学更具实效性?如何让学生在居家学习期间的心理不受负面影响?上述一系列问题摆在每位教师的面前,北京师范大学

期刊

2018—2020年某三级医院急性心肌梗死患者住院费用影响因素分析

目的通过对某三级医院2018—2020年3 732例急性心肌梗死（acute myocardial infarction, AMI）患者住院费用进行分析，找出影响住院费用的因素，为制定合理的支付标准提供依据。方法运用描述性统计分析、单因素分析以及多元回归，分析对住院费用影响有统计学意义的变量（P<0.05）。结果 2018—2020年AMI患者住院费用呈上升趋势，2020年比2018年增长9.

期刊

急性心肌梗死住院费用单因素分析多元回归分析

赛珍珠《水浒传》英译本翻译策略的文化心态研究

本文以《水浒传》赛珍珠译本All Men are Brothers为研究对象,运用劳伦斯·韦努蒂的后殖民语境下解构主义异化观中异化归化翻译策略的文化心态,探讨影响和制约赛珍珠翻译策略选择的原因,进而挖掘深藏译本背后的一系列深层文化因素以及影响和制约赛珍珠翻译策略选择的真实原因。

期刊

文化心态异化归化《水浒传》赛珍珠译本

石油污染土壤富集前后细菌群落组成和共现网络分析

富集培养是分离石油降解微生物的重要环节之一，该过程中微生物群落会进行相应的演替。为了探究石油污染土壤中细菌群落富集过程中的演替规律，本研究采用了平板划线法、菌落PCR和高通量测序技术，分析了富集前后细菌群落结构、共现网络和核心菌属组成，并对富集后体系中的微生物进行分离鉴定，筛选石油降解菌。研究表明富集体系中可培养微生物隶属于34个属53个种，其中3个为潜在新种微生物，Dietzia maris O

期刊

石油污染富集培养共现网络迪茨氏菌

新修虚假陈述民事赔偿司法解释评析

修订后的《最高人民法院关于审理证券市场虚假陈述侵权民事赔偿案件的若干规定》已于2022年1月22日实施,新《虚假陈述司法解释》具有完善虚假陈述责任体系,推动民事责任裁判规则进步的重要意义。一方面新版解释贯彻了投资者保护的法政策,及时填补了相关法律制度的空白,另一方面实现了民事责任的精细化,完善了相关主体的抗辩事由以及损害赔偿的计算规则。新《虚假陈述司法解释》的适用,有助于提高我国资本市场的投资者保

期刊

虚假陈述民事责任司法解释修订证券法

“三全育人”视域下的高校文化育人模式实践探索——以合肥师范学院数学与统计学院为例

“三全育人”的目的是培养德智体美劳全面发展的社会主义合格建设者和接班人。自“三全育人”理念提出以来，各高校对思想政治工作的认识不断深化，对“三全育人”理念的贯彻落实不断加强。合肥师范学院数学与统计学院以安徽省“三全育人”综合改革试点单位创建为契机，结合数学专业特点，打造具有专业特色的“3.1415”文化育人模式，通过十五项具体文化育人举措进行实践探索，努力培养价值观端正、知识丰富、能力全面的新时代

期刊

三全育人数学专业文化育人实践探索

外泌体介导上皮间质交流在积水肾急性灌注压力负荷后肾纤维化中的作用及机制研究

目的通过构建不同程度积水肾不同大小急性灌注压力负荷损伤的动物及细胞模型,探讨急性灌注压力负荷损伤对积水肾纤维化的影响,同时阐明肾小管上皮细胞分泌的外泌体介导的上皮间质交流在其中发挥的作用及可能的分子机制,从而丰富肾纤维化的发生理论,为临床积水肾脏的保护提供理论依据,为围术期灌注压力负荷所致积水肾纤维化的分子干预提供新思路。方法1.急性灌注压力负荷对积水肾的影响:构建不同程度积水肾不同大小急性灌注压

学位

积水肾急性压力灌注外泌体肾纤维化

基于深度学习的文本生成图像技术研究

其他学术论文