基于生成对抗网络的人脸素描图像到真实图像转换

来源 :天津大学 | 被引量 : 0次 | 上传用户:liaodoctor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像转换在现实生活中有广泛的应用场景,在图像转换任务中,素描图像到真实图像的转换是一类特殊任务,由于素描图像只包含单一色彩,与真实图像的像素差异很大,因此传统方法很难达到理想的效果。随着深度学习的不断发展,这一任务成为了当前研究的热点之一。随着生成对抗网络(GAN)的提出,素描图像到真实图像转换这一任务的性能得到大幅提升,出现了很多基于GAN的转换方法及模型,但是这些方法都存在一些不足:(1)这些方法在浅层编码层中都采用单一尺度卷积核结构,导致素描图片的一些细节信息丢失,没有被网络提取到;(2)这些方法在转换过程中,没有将注意力集中在重点区域,导致转换效果不佳;(3)这些方法都只采用单独的素描图像作为输入,缺少额外的补充信息帮助网络更好地完成转换任务。本文针对上述三种问题,紧密围绕基于生成对抗网络的人脸素描图像到真实图像转换问题展开研究,取得的主要研究成果如下:(1)本文提出了基于多尺度自注意力生成对抗网络的转换模型:该模型遵循“分而治之”的策略,在编码层的浅层采用多尺度卷积核结构来捕捉更丰富的细节信息,在编码层的深层采用自注意力机制来捕捉长距离依赖关系,进而进行注意力重分配,同时设计了一个新的损失函数来描述素描图像和真实图像之间的复杂关系。在不同数据集上的实验结果表明该方法的有效性,定性和定量的分析说明了该方法的性能以及和其他方法相比的优越性。(2)本文提出了基于多视图生成对抗网络的的转换模型:采用互补信息作为输入,除了原始的素描图像,还加入通过Sobel算子计算得到的梯度信息,梯度信息对于边缘和细节起到了增强的作用,同时将梯度信息显示地传输给网络,帮助网络更好地训练。在不同数据集上的实验结果表明了加入梯度信息的有效性。本文通过大量的对比试验和消融实验,证明了所提出方法的有效性。模型尽最大可能捕捉素描图像的内部信息,同时利用外部的梯度信息,高质量地完成了素描图像到真实图像转换这一任务。本文也为基于GAN的其他图像转换任务提供了新的思路,具有很好的扩展性和应用型。
其他文献
目前深度学习已经在多个领域中获得了令人瞩目的成就,但深度学习的成功往往依赖于大规模有标注的数据集,这不仅限制了其在特定领域的应用,也与人类能够从少量样本中快速建立概念有较大差距。小样本分类旨在通过少量有标注样本学习出有效的模型,能够对新类进行识别。而半监督条件下的小样本分类则是对当前小样本研究的进一步拓展,半监督条件一方面更加贴近人类对于事物类别的认知方式,另一方面在实际应用中无标记的数据的收集往
学位
随着天文观测数据的日益丰富,天文学研究已经进入大数据时代。随着光学望远镜制造技术不断发展,高分辨率和宽视场的天文光学观测图像数据持续增速积累。对于时域天文学研究,天文学家通常关注于某一片天空区域内发生的变化或者某一个星体自身发生的变化,并不需要处理所有的归档图像数据,因此如何保证能够快速从海量的归档数据中检索出天文学家所需要的图像序列是一个亟待解决的挑战。本文面向基于光学图像数据的时域天文学研究,
学位
天文观测对大气环境质量、防信号干扰能力等方面的要求非常高,因此,观测条件越好的地点越是人迹罕至。由于观测地点长期无人值守,在观测站点部署高可靠、低成本的远程数据传输系统非常有必要。例如,南极昆仑站天文观测现场与国内数据中心之间只能依靠铱星通信系统进行数据传输。然而,铱星通信网络的带宽极为有限,并且相当不稳定,流量成本也非常昂贵。因此,常规的数据传输工具,例如rsync和scp,并不适用于这种传输场
学位
语音合成(Text-to-Speech,TTS)是一种将输入文本转换为合成语音的技术。在人机交互场景中,语音合成作为交互链条中最后一步,具有举足轻重的地位。目前随着端到端技术的提出和日趋成熟,单语种单说话人语音合成系统,已经能够合成与人类发音具有相似自然度的语音,但是在实际应用场景中,单语单说话人语音合成系统已经无法满足人们的日常需求。比如在导航系统中出现的含有英文单词的地址,日常交流中出现的英文
学位
随着数字化时代的到来,数据的形态非常丰富,描述同一实例的不同类型数据被称为多视角数据。基于多视角数据,多视角学习旨在通过融合来自多个视角的补充信息来发现潜在的表征。可以根据数据的完整性将多视角学习分为完整视角表征和缺失视角表征,本文围绕完整视角和缺失视角的表征学习展开研究。对于完整视角的表征学习,基于子空间学习的方法是目前较为主流的方法,但是当前基于子空间学习的方法存在两个缺点:(1)多视图关系未
学位
视频作为一种重要的信息载体,随着计算机技术和智能设备的快速发展,在人类生产生活中扮演了日益重要的角色。在人工智能领域,基于深度学习的视频分析技术也受益于多种基础任务的发展,在各种细分领域有着广泛的应用。视频问答任务结合了视频的视觉信息和文本的自然语言信息,能够让智能机器跨越模态的鸿沟,提升跨模态语义理解能力。近年来受到了大量关注。基于视觉和语言的视频问答作为一个极具挑战性的研究方向,涉及计算机视觉
学位
在现实世界中,绝大多数图数据都在随时间发生动态演化。近年来,随着大规模“动态图”数据的不断涌现,面向大规模动态图数据的查询处理逐渐成为图数据管理中非常重要的一类任务。其中,面向大规模图上的位置查询处理是一个十分重要的研究方向,该方向主要包括两类图数据上基础的查询问题:顶点可达性查询与k-近邻查询。对于动态图上的可达性查询问题,我们重点关注结构变化动态图上基于历史区间的可达性查询,即:给定动态图的拓
学位
<正>为贯彻落实少捕慎诉慎押刑事司法政策,降低诉前羁押率,检察机关对确无逮捕必要的犯罪嫌疑人,依法作出不批准逮捕决定。在羁押率逐年下降,非羁押强制措施适用率不断上升的背景下,传统监管手段已无法满足实践需求,非羁押数字监管为破解非羁押强制措施监管难题,保障刑事诉讼的顺利进行提供了良方。但非羁押数字监管尚处于探索阶段,关于其功能定位、合法性、适用主体权责划分等问题,理论界与实务界仍存在争议,亟待研究解
期刊
癌症已被定性为一种异源性疾病。当某些调控细胞生长的基因发生突变时,这种突变会造成细胞生长速度失控,从而导致细胞疯狂的生长和分裂进而导致癌变。癌症可以产生在人身体的任何一个部位。通常,人体中的细胞会根据身体的需要分裂出新的细胞。当原本的细胞受到伤害甚至是死亡时,这些分裂产生的新的细胞将会替代这些受损的细胞。但是,当身体发生癌变时,整个过程会受到巨大影响。癌症所导致的异常的细胞分裂速度会导致当某些细胞
学位
近年来,随着无线网络的发展和智能终端功能的多样化,基于位置的服务(Location Based Service,LBS)也日渐成熟。在人们享受LBS提供便利的同时,定位信息也被收集用来挖掘对商家有用的潜在信息,因此移动用户的隐私也受到威胁。比如,攻击者可以通过挖掘用户的定位信息窃取用户的兴趣爱好、生活习惯等隐私信息。已经存在的基于定位信息单点扰动的位置隐私保护方法通常难以抵御推断攻击,因此出现了基
学位