【摘 要】
:
文本和图像属于两种不同模态的数据,从文本描述生成与文本描述语义一致的逼真图像涉及计算机视觉和自然语言处理两个领域,是一个跨模态任务,非常具有挑战性。由于在图像生成领域取得的巨大成功,生成对抗网络(Generative Adversarial Networks,GAN)成为文本到图像生成(Text to Image,T2I)任务的最佳解决方案。在过去几年中,T2I方法在视觉真实感、多样性和语义对齐方
论文部分内容阅读
文本和图像属于两种不同模态的数据,从文本描述生成与文本描述语义一致的逼真图像涉及计算机视觉和自然语言处理两个领域,是一个跨模态任务,非常具有挑战性。由于在图像生成领域取得的巨大成功,生成对抗网络(Generative Adversarial Networks,GAN)成为文本到图像生成(Text to Image,T2I)任务的最佳解决方案。在过去几年中,T2I方法在视觉真实感、多样性和语义对齐方面取得了显著进展。然而,T2I领域仍然存在一些问题,需要进一步的研究努力。绝大部分现有的基于GAN的T2I模型都采用堆叠结构作为模型主干,然后引入注意力机制来融合文本和图像特征,并引入额外的网络来确保文本-图像语义的一致性。这种方法已被实验证明在生成高分辨率图像时是有效的,但堆叠多个生成器-判别器对会导致更高的计算量和更不稳定的训练过程。此外,基于堆叠结构的T2I模型仅对64×64和128×128的图像特征进行文本和图像特征融合,这使得生成器不能充分有效地利用文本信息。为此,本文提出了一种简单而有效的T2I模型,它基于单级结构,仅使用一个生成器和一个判别器,直接从文本生成高分辨率图像;为了充分利用文本信息,引入一种层次融合方法,通过向生成器网络层次结构中引入了伴随的文本-图像特征融合模块,在图像生成过程中层次化的进行文本和图像特征融合,不断深化生成器中文本特征和图像特征的融合过程,以指导生成器生成符合文本语义的高质量图像;使用匹配感知判别器,并使用胶囊网络对判别器的网络结构进行了重构,在不引入额外网络的情况下生成真实且符合文本描述的图像。实验表明,本文提出的方法可以有效地生成符合文本描述的高质量图像,在图像真实度和文本语义一致性方面表现出不错的性能。
其他文献
为响应国家节能减排和低碳发展战略的重要举措,在暖通空调领域,干空气能驱动的蒸发冷却技术和低品位热能驱动的制冷技术(如喷射式制冷)逐渐受到大家的关注。其中,蒸发冷却技术优势为节能环保,但其冷却效果易受气候条件限制。喷射式制冷系统结构简单、体积小、成本低,其运行性能不稳定,效率易受背压等因素的影响。在此背景下,课题组提出一种将蒸发冷却与喷射制冷复合的空调系统,该系统充分结合两种制冷技术的优点,使得复合
本文针对纺织空调系统负荷随季节波动性变化导致自控系统对车间温、湿度难以精确控制的问题,旨在研发一种能在有效控制车间温、湿度同时又能节能的纺织空调自控系统。为此,本文采用将空调基础理论与空调系统实际运行相结合的研究方法,对纺织空调自控系统做了以下研究:首先,分析盐城射阳站近三年的气象参数,得盐城全年气象呈4季7阶段变化。经过详细分析和计算得到该地区空调自动控制调节区及车间外空气参数变化规律,对盐城某
随着电子电器集成化、微元化的发展,元器件工作环境的频率也不断变高。在高频化的大趋势下,必须重新考虑和认识过去常被忽略的那些分布参数。对于经常应用于各种变压器、开关电源中的电感线圈,在高频环境下不仅要关注其本身的电感性能,还必须注重分布电容的影响。对于一个实际存在的线圈,分析其分布电容可以利用测量的各种方法。但如果在设计电感线圈时想要知道参数条件下的分布电容值,是无法通过测量方式获得的。本文针对不同
空间环境中的高能辐射粒子对SRAM型FPGA易造成单粒子翻转的危害。当功能电路的敏感位置发生单粒子翻转时,电路就会出现故障,造成重大的经济损失。因此,为了加强FPGA应用于空间环境时抵抗单粒子翻转的能力,需对其功能电路进行防护处理,那么对防护设计的可靠性进行评估验证成为必要环节。近些年,国外开始采用故障注入的方法对电路进行可靠性验证,它通过修改FPGA的配置bit位来模拟单粒子翻转对器件的影响。从
经济市场发展为城市化提供了动力,同时也为城市化过程中城市管理提出了新的要求。但对于城市管道的建设,直埋式的城市管道正日益暴露出一些弊端。城市综合管廊将所有类型的城市电力,电信,天然气,供水和排水管道集中放置并统一管理,在城市下方建立隧道空间特殊的进入口,吊装口,通风和监控系统,对城市升级发展起到了至关重要的作用。本文归纳总结了综合管廊常用的通风形式,利用CFD软件,对城市地下综合管廊电力舱内通风散
随着科学技术的发展,工业生产对压缩机的需求越来越多。在火力发电厂中需要用到空气压缩机进行元件控制、相关物料的运输以及锅炉除灰等,被称为第四大能源。国外进口的空压机一般设有高温保护装置,夏季厂房运行时环境温度会急剧升高,触发进口空压机的保护装置进而停机,会对电厂的正常运行造成损失。高大厂房在通风降温时需要大量的风量和冷量,若采用传统的机械制冷,初投资和运行费用都较高,并不节能。而蒸发冷却是一项绿色节
目前我国炼油能力位居世界前列,但存在炼油产能严重过剩而化工产能不足,原油重质化、高硫化与成品油清洁绿色化的需求矛盾等问题,因此炼油化工一体化是必然趋势。在此趋势下,如何提高企业的经济效益,企业计划的优化管理显得尤为重要。基于此,针对炼油化工生产过程,提出了炼油化工生产过程与公用工程集成计划优化模型。论文主要的研究内容如下:(1)针对炼化生产中如何准确描述过程模型问题,深入分析不同装置的生产过程特点
命名实体作为自然语言文本的关键语义信息,其识别与分类是目前自然语言处理中的重要研究内容。BERT模型通过预训练技术从无标签数据中学习到无监督深层双向表征,然后额外加一层分类器就可以在下游命名实体识别任务中微调后取得出色的性能,但是每种语言都必须学习独立的参数而无法在各语言间实现跨语言迁移。此时有可以支持多种语言的单一模型至关重要,而使用104种语言的语料库上联合训练的多语言BERT,在没有显式监督
我国一直以来就提倡节能环保政策,蒸发冷却技术应用水蒸发吸热原理,顺应大自然自然规律,不使用氟利昂等对环境有一定污染的制冷剂,运行能耗低等优势,但室外空气参数对该技术影响较大,在应用时有着一定的局限性;传统蒸发冷却与机械制冷相结合的空调机组,其冷凝器部分都是采用风冷形式,而在本机组则采用的是板管型蒸发式冷凝器,可以使其换热效率更高,减少占地面积,节约水资源等。根据以上特点,提出了蒸发冷却(凝)空调机
随着深度学习理论的飞速发展,其在多个领域都展现出不俗的成绩,不少学者将其引入地质勘探数据处理领域,但受地理、经济、设备等条件的限制,实际采集的地震数据资料往往存在数量少,质量差等问题。针对地震数据数量少的问题,本文出基于GAN(Generative Adversarial Networks)网络的地震数据集扩充算法,具体使用DCGAN(Deep Convolutional GAN)网络展开实践研究