基于生成对抗网络的图像纹理合成

来源 :云南大学 | 被引量 : 0次 | 上传用户:xiaotaowang33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
纹理合成技术出现以来,着力于对自然界各种纹理的重建与生成工作,目标是扩大图像尺寸,使生成结果清晰、细节丰富。纹理合成工作不仅对虚拟手术、VR和多媒体技术等领域的发展起到积极的推动作用,而且可以作为计算机视觉其他下游任务的基础,因此纹理合成具有重要的实践与理论研究意义。采用深度学习的方法完成纹理合成的任务已经被广泛应用,但结构性较强的图像由于其纹理间存在较强的位置关系,使得生成结果存在瑕疵,针对结构性纹理进行研究,提出一种适用于多种纹理类型的生成模型是解决纹理合成任务的重要问题之一。由于生成对抗网络拥有强大的特征提取与重建能力,本文提出了一种基于生成对抗网络的纹理合成算法,解决了扩大图像尺寸并较好的保留图像细节的问题。通过子像素卷积操作、多尺度通道注意力模块提高生成器的性能,利用卷积神经网络计算图像间特征的最优传输距离,计算生成图像与样本之间的像素损失进一步约束图像间的统计数据。本文的主要工作如下:1、根据输入噪声图像生成大尺寸结果图并保留纹理样图细节信息的任务,本文对输入数据以及训练集设置了数据预处理方法。基于生成对抗网络,提出了一种多尺度通道注意力纹理合成模型,网络在不断学习样本数据分布的同时,通过子像素卷积层扩大输入噪声图像的尺寸,多尺度通道注意力模块得到带有注意力权值的通道特征图,进一步增强了生成器的性能。实验结果显示本方法避免了细节丢失、局部失真等问题,能够获得质量较高的生成图像。2、基于多尺度通道注意力纹理合成模型存在的某些样图细节模糊及整体结构偏移的问题,本文提出一种结合最优传输距离的纹理合成模型,解决了生成样本结构偏移问题。切片瓦瑟斯坦距离可以转换到深度特征空间,而且可以捕获更加完整的分布,因此本文采用VGG19网络提取图像的特征图信息,通过计算生成图像与纹理样本之间的切片瓦瑟斯坦距离,进一步约束两幅图像间统计特征的相关性。因此,本文提出了基于最优传输距离的损失模型,具体包括生成对抗损失、像素损失和切片瓦瑟斯坦损失,结果显示该损失模型获得了更好的视觉效果,生成图像在细节和整体结构上都取得了较好的视觉效果。通过实验验证,本文所提方法可以扩大图像尺寸,生成任意大小的样本图像,避免了结构偏移和细节丢失等问题,获得了更好的视觉效果,进一步增加了网络的可解释性。
其他文献
中国反腐败治理进入了新时期,对反腐败提出了新要求,但受贿罪的法条存在局限性,使之在应用时出现“举证难”等问题,2016年出台的司法解释未能解决现有的问题,应当回归诠释学路径,通过构造新法益,对受贿罪犯的具体应用进行合理阐释。第一部分,基于现有判例的裁判文书检索,得出16年的贪污贿赂司法解释并未在实务中很好运用这一结论,认为现有的司法解释使用率不高且未能解决疑难问题,应通过构造法益对其进行解释。第二
学位
承继的共犯是共同犯罪的一种特殊形态,其核心问题确定归责范围问题,即后行为人是否应当对先行为人先行实施的犯罪行为以及参与后共同实施的犯罪行为整个犯罪承担责任。绑架罪中需明确承继的共犯如何界定,主要包括了两类行为人,一类是实施绑架,另一类是勒索财物,两类行为人是否构成上述关系,对此司法实务界与学界有很大争议,其根源在于对绑架罪的行为构造以及既遂形态理解不一,如果认为绑架罪是单一行为犯,绑架行为完成时犯
学位
运动目标检测技术的主要目的是将运动物体提取出来,为后续的目标识别和跟踪等提供准确、有效的信息。在医疗领域、军事领域和交通领域等有着广泛应用。但在复杂场景下(如背景变化等)的准确率大打折扣,因此研究一种高效、精准的运动目标检测算法有着重要意义。为了能够准确提取运动目标,本文以视频图像的运动目标检测中的Vi Be算法为主要研究对象,工作概括如下:第一,针对Vi Be算法易受光照等背景变化影响、容易将移
学位
移动互联网和社交媒体平台与现代人的生活紧密相连,大量的文本信息随之出现,问题生成(Question Generation,QG)引起了越来越多研究者的关注。问题生成作为人工智能的一个重要研究领域,通过输入段落和答案的文本信息,生成针对输入序列相关的问题,问题生成对于帮助对话系统、自动诊疗等领域构建或扩充语义知识库,具有重要的现实意义。目前,基于深度学习的方法在自然语言处理领域,能够有效的提取段落和
学位
网络犯罪具有极强隐蔽性。网络犯罪帮助行为具有共犯从属性弱化、法益侵害性升高的特点,其归责路径给传统共犯归责模式带来冲击。文章针对目前学界对网络犯罪帮助行为正犯化的研究,明晰其刑法意义上的概念及内涵。通过整理该议题在国内外的研究现状,梳理其立法沿革,探求网络犯罪帮助行为独立入罪的深层法理。归纳整合主流观点,就相关论争进行对比研究,评价有关罪名性质、共同犯罪解释方案以及罪责刑相适应原则的争议,评析争议
学位
图像描述指采用自然语言描述图像的内容信息,涉及图像信息与文本信息的转换。该任务不仅涉及计算机视觉技术,还运用了自然语言处理的相关技术。图像描述模型采用编码器-解码器框架。在该架构中,首先由编码器将图像转换为中间特征向量,再利用注意力机制对图像的特征区域进行权重赋值,接着将图像特征向量传输到解码器,由解码器生成描述。通用的注意力机制采取图像特征向量和文本向量单层线性融合的操作,而单层的线性融合作用有
学位
三角关系不当得利是不当得利制度中的一种特殊形式,是从各方当事人的数量角度进行划分的。三角关系不当得利并没有法条明文规定,是学理上的概念,其学理较为晦涩难懂,其案例多为错综复杂,实践中存在诸多争议。本文主要围绕三角关系不当得利的构成要件、三角关系不当得利中谁有权向谁主张请求权问题、三角关系不当得利的利益返还范围这三个问题进行论述。首先,三角关系不当得利应采取非统一说,对其进行类型化研究。三角关系不当
学位
轻微暴力致死是指因矛盾纠纷引起的推搡、掌掴等程度轻微的暴力行为却导致了被害人死亡的结果,由于行为与结果之间存在巨大反差,所以在处理轻微暴力致死案件时,司法机关难以对此形成统一的定性,刑法理论界也对其定性问题产生了不同的看法。纵观相关司法判例可以发现,当前有关轻微暴力致人死亡案件的审判,主要存在四种不同的裁决:以故意杀人罪定罪;以故意伤害(致人死亡)罪定罪;以过失致人死亡罪定罪;定性为意外事件。其中
学位
如今监控拍摄的视频数量日益增加,仅依靠人工分析大量的监控视频图像很难查找到目标,而智能化的视频图像目标检测和识别已经成为了重点研究方向。同时从多个监控视频图像中识别特定行人是城市安全防控的又一大难题,仅依靠人工识别既耗时又费力。因此,本文从检测视频图像中的目标、识别不同行人两个方面,设计了基于YOLOv5的目标检测网络模型以及特征融合结合度量学习的行人重识别方法。以实际生活拍摄的行人图像进行检测和
学位
模因是一种图像和文本结合的产物,通常将文字嵌入图像中,由于其内容的多样化以及丰富的情感特征,在社交媒体中被广泛应用。模因不仅是传递信息或扰乱社会政治局势的媒介,而且是分享幽默和笑声的主要来源,其已成为日常生活不可或缺的一部分,它们在人们的社会政治、文化和行为中发挥着至关重要的作用。尽管模因通常意味着讽刺或幽默,但社交网络中仍然存在传播具有攻击性、威胁性和仇恨性模因的现象,所以它们的自动检测将有助于
学位