【摘 要】
:
近年来,文本生成图像已成为计算机视觉领域的重要研究方向之一,它旨在理解文本的语义信息并生成相关的图像,不仅能够帮助扩充虚假图像检测的数据集,还能配合文本为网络舆情分析提供支撑。传统的文本生成图像方法希望能够建模实现文本特征到图像特征的直接映射,但是因为二者跨度较大效果不好,直到生成对抗网络(GAN)被应用于这个领域,文本生成图像的效果得到了显著提升,但是仍存在很多问题。例如,经典方法采用多个生成器
论文部分内容阅读
近年来,文本生成图像已成为计算机视觉领域的重要研究方向之一,它旨在理解文本的语义信息并生成相关的图像,不仅能够帮助扩充虚假图像检测的数据集,还能配合文本为网络舆情分析提供支撑。传统的文本生成图像方法希望能够建模实现文本特征到图像特征的直接映射,但是因为二者跨度较大效果不好,直到生成对抗网络(GAN)被应用于这个领域,文本生成图像的效果得到了显著提升,但是仍存在很多问题。例如,经典方法采用多个生成器-判别器对的堆叠式结构不仅会造成模型冗余,还会使得生成图像仿佛是目标物体的叠加,缺乏视觉真实性,而单阶段模型对文本特征的使用不够充分。并且无论哪种方法都缺少了对不匹配真实图像信息的利用,也未对图像和文本信息进行局部匹配对齐,这会导致生成图像与文本的语义一致性不够好。针对这些问题,本文对单阶段的文本生成图像模型提出了改进,主要分为以下两个研究点:(1)提出了基于特征融合的文本生成图像模型(MF-GAN)。该方法采用一对生成器-判别器的骨干架构,通过在生成器中使用条件残差模块和双元注意力模块来实现对粗粒度和细粒度文本信息的充分利用。具体而言,句子和单词的特征被分别重复输入上述两个模块中,用于文本特征和图像特征的深度融合。此外,本文还引入了三元组损失来缩小生成图像与匹配真实图像之间的视觉差距,并同时扩大与不匹配真实图像的差距,以充分利用不匹配真实图像信息。实验结果证明MF-GAN优于大多数最先进方法。(2)提出了基于特征对齐的文本生成图像模型(MFA-GAN)。该方法在MF-GAN的基础上进行改进,通过跨模态注意力机制实现文本和图像的局部语义对齐。具体而言,跨模态注意力机制包括文本到图像和图像到文本两个方向,分别计算两个方向的局部匹配相似性之后,基于三元素损失的思想进行组合得到最终语义对齐损失,从而进一步提高文本和图像之间的语义一致性。实验证实MFA-GAN在MF-GAN的基础上效果有所提升。
其他文献
近年来,少捕慎诉慎押作为一项刑事司法政策确立下来,认罪认罚案件相对不起诉的适用在其中发挥了重要作用,成为推进“慎诉”工作的一项重要司法实践。以重庆市检察机关的司法实践作为样本进行分析,可以发现当下的认罪认罚案件相对不起诉工作成效斐然,但也有适用标准未明确、行刑衔接不完善等实务问题亟待解决。应立足于司法实践需要,从明确适用标准、拓展适用空间,强化行刑衔接、做实事后监督等方面完善认罪认罚案件相对不起诉
近年来,由超薄人工亚波长结构制成的超表面具有电磁波操纵能力强、体积小等优点,因此超表面光学器件被认为是下一代光学元件。光子纳米筛作为振幅型超表面,通常以透射模式实现光学超聚焦、显示和全息术,但具有亚波长尺寸的光子筛与入射场的耦合作用弱,由此限制器件的光学透射率,从而导致整体效率低下。为解决该问题,我们提出具有超构反射镜的反射型光子纳米筛,实验证明了该纳米筛全息图的总效率比其对应的透射型光子纳米筛高
随着AI技术的迅速发展,深度伪造技术(简称“深伪”)也随之日渐成熟,引起了社会的广泛关注,其恶意应用也给社会带来了大量的潜在威胁,如虚假新闻人脸合成、明星污名化等。目前网络空间中充斥着大量与个人、企业乃至政治、军事相关的深度伪造视频内容,对个人隐私、社会稳定、政治安全等方面构成了巨大的威胁。主流的深伪检测技术是基于深度神经网络训练分类器进行真伪判别。但是这些方法的检测准确率依然难以满足应用需求。提
锌-空气电池由于高达4400 Wh/L的理论体积能量密度和低成本、安全无污染的优势,近年了受到了重点关注与发展。但是,可充电的二次锌-空气电池仍面临诸多问题亟待解决。一方面,在碱性电解液中,锌金属负极由于溶解、钝化、枝晶等问题导致电化学可逆性较差,降低了锌-空气电池的工作寿命。另一方面,空气正极上氧还原反应(ORR)和氧析出反应(OER)的动力学过程缓慢,拉低了二次锌-空气电池的输出功率和能量转换
自1998年以来,历经二十多年的不断发展,基金已成为我国金融体系的重要组成部分。目前,我国基金产业正由高速发展时期步入成熟时期,激烈的业内竞争和各种发展障碍也应运而生。我国基金业整体面临着产品同质化严重、替代产品不断出现、渠道维护费用增加等实际问题,其中的中小型基金公司,甚至出现因为品牌知名度不高、产品线不齐导致的营销工作停滞。作为典型的业绩驱动和营销驱动并驾齐驱的行业,营销对基金公司的营收和创利
教育是百年大计,在当今这个知识经济时代,教育对个人的发展、家庭的兴旺乃至社会进步都起着不容忽视的作用。而家庭作为最基础的社会单位,在教育投资中不可或缺。从我国实施九年义务教育政策开始,教育投资不仅占财政支出的比重在不断提高,占家庭总支出的比重亦是如此。但是,教育投资的城乡差异化显著,其中农村家庭的教育投资明显不足。如今,如何加大农村家庭教育投资、缩小城乡教育投资差距、促进教育公平成为社会普遍关注的
数字隐写将秘密信息嵌入数字媒体(如图像、音频等)中进行隐蔽通信。多年来,数字隐写不仅聚焦于嵌入方法的改进,也关注载体选择的扩展。随着神经网络的发展,越来越多的开发者投身于神经网络的开发与研究,并在互联网中分享自己训练的网络模型。因此,神经网络模型已成为一种在互联网中广泛传播的新型数字媒介,也成为一种新的隐写载体。目前已有多种以神经网络为载体的隐写算法被提出,且有研究者利用隐写算法将恶意代码嵌入神经
近年来,国内网络通信技术迅猛发展,创新型企业不断涌现,出现了像网络直播平台这样以新型交互方式为特色的娱乐产业。随着网络直播用户数量的不断增长、直播市场规模的不断扩大,一些头部企业为了谋求进一步发展选择在国内外进行上市。对直播平台的审计需求随着其经济影响的扩大而逐渐上升。查找和整理现有的文献后发现,当前对于网络直播平台审计风险的研究较为有限,针对直播行业的审计理论体系尚未建立,审计人员也缺乏直播平台
脑卒中正成为老年人的一种非常常见且危害很大的疾病。已有临床试验表明,及时和适当的康复训练能够增强患者的运动功能,促进患者康复。传统的康复训练与评估以职业医师辅助为主,不仅评估过程耗时,而且评估结果准确性受医师主观影响大。康复机器人这种新兴技术的出现为脑卒中患者的康复训练和运动评估提供了新的解决方案。本研究的目标是开发一种低成本、结构简单的上肢康复机器人,并通过基于机器学习算法的康复评估模型实现脑卒
电催化反应广泛存在于CO2还原、析氢反应、甲醇氧化等诸多和能源相关的反应过程当中。从广义上讲,电催化是对电极反应的研究,其动力学强烈依赖于电化学界面的物理化学性质,包括电极材料的性质和电极表面的双层结构。通过使用电解质效应或所谓的“电解质工程”来改变电化学界面提供了一种调节电化学响应的通用方法。对存在于众多电催化与电合成反应中的质子耦合电子转移(Proton coupled electron tr