基于深度学习的图像生成算法研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:xqxcb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像生成是计算机视觉中的研究热点,如何提高生成图像的真实性和多样性,以及如何降低硬件资源使用和模型存储大小使得更加有利于模型落地,是图像生成算法的研究重点和难点。而且,在实际应用中,许多其他任务与图像生成任务紧密相关,利用生成的图像可以降低数据获取成本,生成图像的质量直接影响其他任务的表现。本文的目的就是提高图像生成算法生成图像的真实性和多样性,降低硬件资源使用和模型存储大小、缩短训练和测试时间,因此本文提出了基于表征匹配损失的图像生成算法,主要工作和贡献如下:(1)增加了表征匹配损失函数,使得生成图像保留编码得到的内容表征信息和属性表征信息,增加了对于生成的约束,保证了将编码器提取的图像表征信息尽可能的传递给生成器而不是忽略这些信息,防止出现生成器为欺骗判别器造成的模式坍塌问题,提高了生成图像的真实性和多样性。(2)增加了压缩模块,通过教师生成器蒸馏学生生成器进行训练,使得参数量较小的学生生成器学习到教师生成器的中间表示层知识,获得更丰富的特征信息,从而降低参数量以及模型大小、减少内存和显存等硬件资源的使用、缩短训练和测试时间,实现生成模型的压缩。(3)在cat2dog、yosemite、monet2photo三个公开数据集以及真实场景plate数据集进行实验验证,通过定性分析和FID、LPIPS、JSD、NDB四个指标的定量分析,以及增加压缩模块前后的参数量、模型大小、显存使用、内存使用、训练和测试时间的对比,证明了所提出的表征匹配损失和压缩模块的有效性。另外,将经过基于表征匹配损失的图像生成算法得到的车牌图像用于车牌识别模型的训练,提高了车牌识别准确率,证明了所提出方法在实际应用方面的有效性。
其他文献
随着无线通信技术的发展,日益紧张的频谱资源难以满足高速率、低延迟和海量连接的需求,在人们日益增长的通信需求的推动下,迫切需要一种新技术提升频谱效率。稀疏码非正交多址接入(Sparse Code Multiple Access,SCMA)技术利用码本的稀疏性能够在非正交资源上叠加传输用户数据,能够极大地提高频谱效率。SCMA作为一种极具潜力的非正交多址技术引起了学术界和工业界的广泛关注,本文以SCM
Web是现如今互联网越来越重要的组成部分,但大部分Web类的应用都会因为开发语言自身的灵活性而导致其存在不同严重程度的安全问题。传统的基于规则的检测方式已经无法实现对日益变化的攻击方式的有效拦截,然而随着算力和数据量的提升,通过深度学习方式进行Web攻击检测已成为热门的研究领域之一。在Web攻击检测方面,大多数的研究者都只关注了由客户端发送的请求流量,而忽略了返回流量中相当明显的一部分特征。在本文
近年来,随着容器技术的迅速发展,将容器技术应用到智慧城市等概念逐渐成为研究热点。本文以已有的智慧管廊微服务架构为基础,设计出基于改进的Kubernetes容器编排框架的智慧管廊容器云平台,并实现了轻量级的容器镜像的构建、多用户层级容器管理监控告警服务等功能。同时为了应对中小规模容器集群中容器调度耗时,影响服务性能等情况,本文从容器调度队列、启发式调度算法等层面提出了一种基于蚁群算法的容器调度器设计
随着移动通信技术发展到第五代,虚拟/增强现实、自动驾驶汽车、触觉互联网、物联网等新的场景和应用不断涌现,导致人类社会对通信、计算等资源的需求大幅增加,对时延的要求也更为苛刻。为了满足上述场景和应用的各类需求,学术界提出了移动边缘计算(Mobile Edge Computing,MEC)技术,并持续推动技术应用。然而MEC的安全性阻碍了 MEC技术的发展和应用:边缘节点具有脆弱性和复杂性,导致传统安
当前时代飞速发展,众多新兴产业应运而生,随着人民物质生活水平日渐提高,人民群众对于精神文明的需求日渐高涨。另一方面,当前社会中生活节奏呈现出极度高速化的特点,各年龄段人群的压力与日俱增,生理心理健康两手抓的呼声日渐激烈。心理健康水平作为确保个人生活品质的重要指标越发被重视,合理评估个人心理健康水平,为有需求者提供互联网时代下的心理咨询服务是符合时代规律的一大需求。智能移动终端目前普及率极高,开发可
随着互联网信息技术的迅猛发展,推荐系统帮助用户快速、精准地寻找所需和所感兴趣的物品(item),逐渐渗透到人们的衣食住行中。推荐系统中的音乐、商品、法规等物品和类目之间常常具有分层结构,物品从属于类目(category),子类目又从属于父类目。为了针对具有这种特征的物品设计和实现推荐系统,本论文在相似推荐和个性化推荐这两个工程中的实际应用场景下,分别挖掘物品的分层结构信息。主要工作内容如下:(1)
随着计算设备的发展,人机交互领域受到广泛关注。三维显示作为一种可以显著提高认知和交互效率的显示方式,是未来显示领域的发展方向。近年来,裸眼三维显示越来越受到人们的关注,它不需要任何助视设备便可以为人类提供自然的三维图像。然而,目前大多数研究都集中在裸眼三维显示器的显示性能提升方面,而缺乏对其认知效能的评估和对其人机交互行为的分析。因此,为提升裸眼三维显示设备的空间场景认知理解效率,设计更加高效的三
随着互联网技术的发展,每天都会产生海量的数据,而人们也从信息匮乏的时代跃迁到信息过载的时代。推荐系统作为用户与数据提供者之间的桥梁,缓解了信息过载的困境。它能够从用户的行为模式以及其他辅助信息中挖掘出用户的兴趣并为用户推荐信息。另外,随着社交媒体的发展,用户通过微博、微信等社交平台产生丰富的交互关系,如关注、转发、信任等,从而使得用户之间构成了一张巨大的社交网络。同时,用户对信息的偏好容易受到其在
超分辨率算法的目标是将低分辨率的图片重建出高分辨率图片。现实生活中的设备在精度上的不足,导致产生的图片往往无法满足人们对分辨率的需求,例如医学成像设备、遥感卫星、监控设备等。为了解决这个问题,一个解决方法是提升设备的精度。然而这种方法不仅成本较高,而且技术工艺复杂,不利于推广使用。因此有必要利用算法生成高分辨率图片。超分辨率算法需要解决以下几个问题。首先是如何解决图片种类繁多、物体尺寸各异的问题;
近年来,云计算凭借其按需使用、按量付费的特点,以及通过虚拟化技术等完成硬件资源和软件资源的融合,形成了资源池并提供统一调度接口为用户服务,极大地降低了成本并提升了易用性。基于超融合架构的云计算采用分布式存储,在一个单元设备内同时具有信息网络、信息存储以及虚拟化等诸多的资源和技术,降低服务器架构管理难度且多单元设备借助网络聚合来实现其自身模块化横向的扩展,已成为云计算架构的主流。然而,非法用户越权获