【摘 要】
:
随着深度学习发展,尤其是生成对抗网络的提出,文本生成图像任务已成为图像生成领域的一个重要研究方向。文本生成图像任务要求提供一段文字描述,并生成符合文本语义的图像结果。文本生成图像方法中存在着网络训练不稳定、生成图像细节真实性与多样性不够等挑战。本文为提高图像生成的真实性与多样性,做了如下工作:首先,为实现稳定的细粒度文本到图像生成,本文提出了注意力与卷积归一化生成对抗网络。方法通过引入注意力机制的
论文部分内容阅读
随着深度学习发展,尤其是生成对抗网络的提出,文本生成图像任务已成为图像生成领域的一个重要研究方向。文本生成图像任务要求提供一段文字描述,并生成符合文本语义的图像结果。文本生成图像方法中存在着网络训练不稳定、生成图像细节真实性与多样性不够等挑战。本文为提高图像生成的真实性与多样性,做了如下工作:首先,为实现稳定的细粒度文本到图像生成,本文提出了注意力与卷积归一化生成对抗网络。方法通过引入注意力机制的堆叠生成对抗网络实现图像生成,并在判别器的上采样模块中加入卷积归一化机制。通过多个的阶段生成器逐级实现高分辨率的细粒度图像生成,并通过卷积归一化稳定模型的训练过程,提高了图像生成质量。其次,针对文本生成图像方法网络过于复杂、缺少对文本重要信息关注的问题,本文提出了基于属性的分区条件融合文本生成图像方法。通过深度文本图像融合模块构建单阶段的生成对抗网络,并提出属性分区融合模块。属性分区融合模块首先提取出文本中的属性词,进而依据图像子区域与属性词匹配度对图像特征进行分区,对各分区使用相应属性词向量进行条件融合,增强图像与属性条件的深度融合。模型提升了生成图像的多样性与细节真实性。最后,针对具有多个对象的复杂场景描述文本,本文提出一种基于对象语义的深度融合生成对抗网络。模型的生成器包括两个并行的网络分支,分别为全局图像生成分支和局部对象生成分支。全局分支将整个文本句子作为约束条件,局部分支将对象标签与边界框作为约束条件。模型的判别器包括全局图像与局部对象特征提取分支,并结合两分支特征进行判别。模型由深度文本图像融合模块构成,实现了单阶段的复杂场景生成,并提升了对象特征的生成质量。
其他文献
发展壮大群防群治力量,建设社会治理共同体是党的二十大报告对完善社会治理体系工作的重要要求。群防群治是社会安全的重要组成部分,而社会安全是国家安全的保障,发展壮大群防群治力量对推进国家安全体系和公安工作现代化建设具有重要作用。当前群防群治力量工作中存在专业人才匮乏、监督机制不完善及信息化水平滞后等问题,公安机关应当坚持以人民为中心,从加强政治引领、推进信息化建设、建立多维合作机制等方面推动新时代群防
自从宇宙加速膨胀被发现以来,科学家们便开始寻找宇宙加速膨胀的原因,提出了两类解决方法,第一类是引入一种负压特性的暗能量,第二类是修改宇宙的时空几何部分,即修正引力理论。首先,本文介绍了以下几种暗能量模型,宇宙学常数模型、全息暗能量模型及其相关推广模型,还介绍了常见的f(R)修改引力和Finsler-Randers理论。Finsler几何是传统黎曼几何的一种自然推广,换句话说黎曼几何是Finsler
宇宙观测数据表明,在现阶段宇宙正在加速膨胀,无论在理论方面还是在实验观测方面,宇宙加速膨胀都是宇宙学的前沿问题。多年来,科学家们从修改Einstein场方程的物质与几何项入手,找到了对宇宙加速膨胀现象的两种解释:第一种解释是在宇宙组分中引入压强为负的暗能量,充分利用其排斥引力效应来推动宇宙加速膨胀;第二种解释是修改宇宙的时空几何项,即产生新的引力理论,本文主要介绍的引力理论是Dvali Gabad
在5G和未来6G无线通信系统中,更高的频谱效率、能量效率和传输效率是发展的重要方向。然而最佳二进制序列仅存在长度为4的情况,最佳四进制序列仅存在长度为2、4、8和16的情况,为获得更多可适用于实际通信系统的最优序列,本课题一方面对具有最优相关特性和平衡性的几乎二进制序列对进行研究;另一方面,对最佳四值整数序列的构造方法进行研究。本课题的具体研究工作如下:首先,以序列自相关函数幅值最优为前提,进一步
寻找超出标准模型(SM)的新物理(NP)是目前粒子物理领域的前沿问题之一。作为一种模型无关的寻找NP信号的方案,标准模型有效场论(SMEFT)能更高效地搜索NP信号,因而近年来受到广泛的重视。最近的理论研究表明,对于某些过程,参与的高量纲算符是从量纲为8的算符开始的,其中由中性三次规范耦合(nTGCs)诱发的过程就是这样的例子。所以,研究nTGCs为搜索和研究NP提供了一个独特的机会。本文研究了正
基于语音的身份认证技术是生物识别方法中的一个重要的研究方向。文本无关的说话人识别任务旨在无需固定语音文本内容的情况下,通过说话人的一段语音判决其是否来自目标说话人,实现说话人验证。近年来,随着人工智能技术的发展,基于深度学习的说话人识别方法被广泛研究,已经取得了一些成果,但是在如何提升系统泛化能力、语音帧级特征提取等方面仍存在许多问题值得我们探索。该文围绕基于深度学习的文本无关说话人识别方法进行研
语义分割是高空间分辨率遥感图像分析和理解的核心内容之一。深度学习方法是目前高分辨率遥感图像语义分割的研究热点。本文基于深度学习方法,从三个方面针对高分辨率遥感图像的语义分割问题进行了研究。首先,现有基于深度学习的语义分割网络会导致遥感图像的高频信息损失,边界分割不准确。针对此问题,设计一种双解耦语义分割网络模型,将提取的两级特征分别解耦为具有高频特性的边界(Edge)特征和具有低频特性的主体(Bo
在论文的第一部分,我们简要介绍了加速宇宙学及解释宇宙加速膨胀的通常做法。在论文的第二部分,我们对几种常见的暗能量模型加以简述,并展示了这几种常见的暗能量模型在state finder诊断中的表现。论文的第三部分和第四部分为本人在硕士生期间的主要工作,重点探讨了不同形式下f(R)修改引力理论和GBD修改引力理论中的几何诊断问题。众所周知,一些观测和理论上的动机要求我们对广义相对论(GR)的修改理论进