【摘 要】
:
文本生成图像任务是根据给定的文本描述生成图像,而图像修复任务是依靠受损图像中的残余视觉信息来生成受损区域。两个任务都是在给定的一个生成条件(图像或文本描述)下去生成高质量的图像。结合两个任务的优点,同时使用图像和文本描述作为生成条件,便衍生出新的图像生成任务(文本指导图像生成任务),其目标是将文本描述作为受损区域的视觉语义的补充信息来指导图像的生成。文本指导图像生成任务是具有多模态生成条件的生成任
论文部分内容阅读
文本生成图像任务是根据给定的文本描述生成图像,而图像修复任务是依靠受损图像中的残余视觉信息来生成受损区域。两个任务都是在给定的一个生成条件(图像或文本描述)下去生成高质量的图像。结合两个任务的优点,同时使用图像和文本描述作为生成条件,便衍生出新的图像生成任务(文本指导图像生成任务),其目标是将文本描述作为受损区域的视觉语义的补充信息来指导图像的生成。文本指导图像生成任务是具有多模态生成条件的生成任务,虽然生成结果优于其他图像生成任务,但是该任务存在着双重挑战:一方面,图像和文本是异构的,使得视觉语义信息与文本语义信息难以共享。另一方面,文本描述通常包含冗余信息,可能会分散图像中文本描述所对应的对象的生成。本文基于生成对抗网络提出一种基于掩码重构的对抗性学习框架(Adversarial learning framework with mask reconstruction,ALMR)用于文本指导图像生成,使得受损图像通过文本语义的指导来生成高质量的图像,该网络由两阶段生成器和双鉴别器组成。两阶段生成器分别由粗粒度阶段和细粒度阶段构成,分别生成粗粒度图像和细粒度图像。为了解决视觉语义与文本语义相结合的问题。本文在两阶段生成器中设计了一个双重注意力模块(DAM)来将单词特征和句子特征融合到受损图像中,使文本语义可以指导粗粒度图像和细粒度图像的细节纹理的生成。并通过图文匹配损失对细粒度图像的视觉语义与文本语义进行约束,使它们保持一致。为了进一步解决在自然环境下受损部位的主要对象的局部或全局视觉语义难以生成,以及受损部位与其周围视觉语义难以融合的问题。本文提出一个掩码重构模块提取图像中文本描述所对应的对象并通过掩码重构损失来进行惩罚,使其与所对应的文本描述相符,而且根据文本语义生成的细节纹理图像的不污染背景部分。在训练生成器的时候,除了全局鉴别器以外,我们还利用一个边缘灵活的局部鉴别器使我们的网络聚焦于受损部位,使得生成的受损部位的边缘更加平滑过渡到其周围视觉语义。为了验证提出的ALMR的有效性,本文在三个广泛使用的公开数据集上进行了对比实验。实验结果表明,与其他文本指导图像生成方法以及图像修复方法相比,ALMR具有更好的性能,生成的图像质量更高。不仅如此,本文还进行了消融实验、人工测评以及评测其他影响ALMR性能的因素的实验,从而进一步验证ALMR的有效性。
其他文献
基于目标的情感分析是一种细粒度的情感分析研究,是自然语言处理领域的热门方向。研究目的在于从海量互联网文本中挖掘出细粒度元素,产品、服务、事件等目标及其观点和情感,包括目标提取、意见提取、特定目标的情感分析三个子任务。只解决其中一个子任务的研究,需要假定其它任务的结果已经给出,然而实际应用中没有完美的模型给定结果,从而存在误差传播和局限性。实际场景中的目标通常不是给定的,不仅需要自动提取出目标,也需
随着GPS技术与移动设备的快速发展,基于位置的服务作为一种通用的技术应用,已在个人社交、社会进步和国家发展中发挥出了重要作用。数据发布为数据挖掘提供了最基本的支持,人们在享受这基于位置的服务与数据挖掘技术带来的便利时,大量的定位数据已被收集挖掘,甚至已经落入非法攻击者手中。轨迹数据作为定位数据的一种特别形式,其包含了移动对象的大量隐私信息,当海量轨迹数据未经处理直接发布时,能够换来更多便利的同时,
医学影像是疾病筛查、诊断和治疗的最主要的信息来源。使用计算机辅助诊断技术对医学影像信息进行进一步的智能化分析挖掘,以辅助医生解读医学影像,成为现代医学影像技术发展的重要需求。近年来,人工智能、机器视觉等技术的突飞猛进,深度神经网络模型在图像视觉识别中表现卓越,为医学影像分析提供了新思路,已被广泛应用在医学图像的分割任务中。利用深度神经网络模型对医学影像进行自动分割,可以提高医生的诊断和治疗效率,因
互联网的普及使在线评论成为人们可获取的有价值的信息资源,随着电子商务的发展,商品评论信息数量激增,这些评论中存在一些故意编造或者没有参考价值的垃圾评论。检测垃圾评论的传统研究大都基于评论文本本身进行,这种做法没有综合考虑评论者特征导致识别准确率较低,因此本文提出一种融入全局-局部注意力机制,基于神经网络的融合多特征的垃圾评论识别方法。本文使用Yelp酒店评论数据集进行实验,提出的模型融合评论文本特
地质灾害文本实体关系抽取任务旨在自动从大规模非结构化文本中提取知识三元组,是一项代表性的自然语言处理技术在地质领域的应用,对地质灾害应急处理方案制定具有重要的意义。为了实现地质灾害文本的结构化,机器不但要准确识别文本中的实体边界,还要结合地质领域特点准确判断实体对的关系。本文围绕地质灾害文本信息结构化进行了系统的研究,调研了国内外三元组知识抽取技术及地质大数据服务现状。目前,该任务的解决方案以流水
“水十条”的出台及双碳目标对燃煤电厂节能减排及废水零排放提出了更高的要求,开发经济且高效的水及废水处理及回用技术成为必然。膜电容去离子技术(MCDI)以低成本、高离子去除率的优点日益受到关注。以MCDI在电厂净水处理为研究对象,通过试验筛选,优化达到理想目标的运行操作边界条件,并以试验结果为基础,结合理论分析研究电吸附-再生过程的平衡度模型。结论如下:(1)利用层次分析法对影响膜电容去离子技术在电
随着自动化成像设备的发展,数字图像处理被广泛应用于视频监控、智能交通等多个领域。在各种不可控的因素影响下,特别是天气因素和夜间等环境下,获取的图像往往会呈现出对比度低、亮度差、细节模糊不清和图像质量退化等问题,严重影响信息的传递以及自动化成像系统的性能。为了缓解这些问题,本文基于深度学习和Retinex理论的框架下,对低光照图像增强算法进行了研究。本文的主要研究内容如下:1、本文提出了一种基于Re
红外热成像具备着全天时工作、抗干扰性良好、成像距离远、穿透力强劲、非接触式、不易被探测、对物体热辐射高敏感等优势,因此被广泛用于军用和民用领域。然而,由于成像目标自身的热辐射过弱及红外探测器自身的局限性,现有的成像系统输出的红外图像的分辨率通常低于可见光图像,导致红外图像的质量往往较低,存在空间分辨率低、均匀性差与立体感差、信噪比低、低对比度、易携带噪声、边缘细节模糊与缺失等缺点。因此如何高效地提
北京冬奥会的成功申办极大地点燃了民众对冰上运动的热情,随之我国开始大力推动冰上运动的发展,近些年来我国室内冰场数量大幅上升,冰上运动场馆逐渐成为学者们研究的重点。同时,随着社会的发展,人们对体育场馆室内空气品质的要求越来越严格,冰上运动场馆由于冰面的存在,其室内空气环境复杂,十分容易出现空气品质问题,对冰上运动场馆室内空气品质进行研究具有重要意义。本文以冬奥会比赛场馆——国家游泳中心为研究对象,对
随着奥运会在全球范围内影响力的提升,其对城市发展的推动作用也逐步扩大,对举办城市的交通、经济、文化等各方面发展都产生了深远影响,尤其表现在轨道交通设施的建设方面。轨道交通作为现代城市公共交通系统中不可或缺的组成部分,是一种大运量、高速度、行车间隔短的交通方式,且具有安全性、舒适性和准时性高的特点。同时,轨道交通在奥运会赛事期间承担关键的运输任务,保障奥运会的顺利举办。举办奥运会是一个城市乃至国家的