基于深度学习的图像卡通风格渲染研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:ilytotti
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像的非真实感渲染是计算机图形学领域的一个重要研究方向,其具体的含义是指利用计算机来模拟各种视觉艺术的风格,从而绘制出带有艺术风格的图像。卡通风格也是一种图像艺术风格,伴随着近年来新媒体艺术的兴起和社交网络的流行,大众对于个性化卡通风格图像的需求日益增长,对于图像卡通风格渲染算法的研究具有重要的意义。图像卡通风格渲染是一项具有挑战性的图像非真实感渲染任务,其目的是将真实照片转换为卡通风格的非真实感图像,同时保持原照片的语义内容和纹理细节。一般的卡通风格图像具备以下的特点:图中线条都经过针对性的简化和增强,并且非常平滑和请清晰;图中区域的色块非常平滑;图中语义内容与自然图片有强的对应关系。这与自然图片或者其他艺术风格的图片有着本质上的区别。现有的实现图像卡通风格渲染的方法主要分成基于图像处理的方法和基于深度神经网络的方法两大类。利用传统图像处理技术的方法只能处理纹理内容简单的图片,因为这些方法本质上是图像滤波和边缘增强的结合,效果受图像内容的影响很大,泛化能力较差。另外一些基于深度神经网络(DNNs)的方法通常难以在转换图像全局风格和保持图像局部的细节语义内容之间取得良好的平衡,常常导致风格化程度不足或者丢失图像中的语义细节,产生大量的人工痕迹(Artifacts)。本文基于对卡通图像本身特点的理解,结合对现有方法的缺陷的分析,提出了新的基于深度学习的图像卡通风格渲染解决方案,实现将任意的输入自然图片渲染为卡通风格的图片。本文的方法分成以下三个处理阶段:首先对自然图片进行前处理,然后通过图像风格迁移技术将处理过的图像转换为卡通风格图像,最后对得到的卡通风格图像进行后处理以增强效果。对自然图像的前处理主要包括图像增强和图像滤波操作,其目的是为了改变图像的分布以提升图像质量,使其更适合于后续的风格转换。在图像风格转换部分,本文提出了一种新的基于深度学习的图像卡通风格渲染网络,由图像特征建模模块,特征模型对齐模块和图像重渲染模块三个子网络组成,利用对抗训练策略辅助训练。在卡通图象后处理部分,本文采用相干性线稿绘制技术提取自然图像的边缘信息,然后根据边缘信息对卡通风格渲染的结果图进行边缘增强。本文自建了一个用于训练卡通风格渲染网络的数据集,共包含100,000张自然图片和145,000高质量地卡通图片。同时,本文进行了充分的实验,对本文提出的方法与现有其他方法的处理结果进行了充分的对比,同时展示了大量的高质量卡通风格渲染结果图,实验结果验证了本文中提出的方法的优秀性能。
其他文献
随着传统产业的智能化升级,越来越多的智能化设备应用到工业领域中,如智能仓储物流系统使用移动机器人配合机械臂实现物料的分拣与配送。在此类非结构化环境下,需要为整个系统增加视觉感知能力来保证工作的安全开展。本文针对存在移动机械臂的双机械臂协作场景,提出了一种基于RGB相机对移动机械臂进行空间位姿估计与短期运动预测的深度学习方法,并结合相应的从机械臂避碰策略,实现了双机械臂安全协作任务。本文方法的具体内
对同一场景内物体间的交互关系建模对于视觉理解和运动行为建模有重要意义。在静态场景内,物体间具体明确的交互关系共同组建场景内抽象复杂的事件;在动态场景内,物体们交互协作,以此来避免碰撞或进行群体活动。本文基于图神经网络的信息传递算法框架建模同一场景内物体间的交互关系,针对静态场景下的视觉关系检测任务和动态场景下的运动轨迹预测任务设计算法,并进一步实验给出了交互关系建模的可视化和有效性分析。针对检测图
合成孔径雷达(Synthetic Aperture Radar,SAR)能够全天时全天候地稳定成像,因此在军事和民用领域起着不可替代的作用。然而,受SAR场景复杂性、目标多样性、SAR图像相干斑噪声以及SAR系统和观测平台等限制,SAR图像目标自动识别仍然是一项世界性难题。近些年来深度学习在光学图像识别领域取得了非凡的成就,相关技术被引入到SAR图像识别,并已经取得显著的成果,但现有的研究大多仅利
近年来随着深度卷积神经网络的不断发展,图像分类、目标检测、语义分割等领域都取得了突破性的进展。而与此同时,卷积神经网络所需的参数量与计算量也日益增大,使网络模型在智能手机或嵌入式平台等资源受限硬件上的部署成为了一项相当有挑战性的工作。因此,需要研究对现有卷积神经网络模型进行压缩的算法,减少模型的内存占用和计算量,从而使网络模型在实际部署硬件上能有更好的性能表现。本文对卷积神经网络的压缩和加速算法展
视频服务近些年来在互联网以及移动互联网的流量占比逐年增加,用户人数也呈现增长趋势。用户对视频服务需求的提升推动了新一代,高质量视频标准以及视频技术的产生与发展。超高清(Ultra High Definition,UHD)视频,特别是其中的高动态范围(High Dynamic Range,HDR)视频,是近些年来视频技术发展的重要方向之一。随着HDR视频显示技术,以及HDR视频传输技术的成熟,HDR
自主避障系统是移动机器人自主性的核心体现之一。提高非结构化环境下自主避障系统的安全性和可靠性是当前自主避障系统的重要研究需求。非结构化的环境中可通行区域的几何结构复杂,种类多样,区域边界不清晰,且环境状况不固定。传统的避障系统主要使用几何结构信息和低层次的视觉信息,缺少对语义信息的考虑,因而在非结构的环境下难以区分不同的可通行区域,诸如草地、自行车道、人行道等;并且,传统的避障系统没有衡量地形、语
下一代无线通信系统将会是超快速,超低延迟以及超可靠的。由于低密度奇偶校验(Low-Density Parity-Check,LDPC)码译码复杂度低,误码平层低,能够高速并行运算,因此在未来通信系统中将拥有巨大发展潜力和广阔前景。在高斯噪声下LDPC码的置信传播(Belief Propagation,BP)译码能达到接近香农极限的性能。和积(Sum-Product,SP)算法和由其简化的最小和(M
近年来,随着机器学习在分类、检测、推荐等多个领域取得显著成就,机器学习方法已经被广泛地应用于实际工业任务中,并取得了非常好的效果,创造了大量社会价值。然而,在真实场景中应用机器学习算法仍面临着非常多的问题。首先,目前的机器学习算法往往受到海量数据的驱动,但是随着整个社会对个人隐私保护意识的加强,对数据的收集、存储以及应用正受到越来越多的限制,这就为机器学习长久的发展与应用增加了阻碍。针对目前机器学
随着互联网及通信技术的发展,视频数据的产生越来越快捷,应用越来越普及。利用计算机辅助人们分析视频具有广泛的应用前景。行为识别作为视频分析课题中的一个重要子领域,相关研究工作具有很高的价值。神经网络技术的发展如火如荼,基于深度学习的行为识别算法已经成为该领域的主流研究方向。大部分主流数据集及网络结构都十分依赖视频数据中的空间信息,并不适用于细粒度的行为识别任务。细微差异动作识别有很多应用场景,如体操
随着线上零售的天花板效应显现,线下零售重新得到关注。线下零售以服务取得先天优势,而服务通过销售人员传递给顾客,因此提升销售人员的能力是目前企业管理实践的诉求。销售人员通过多年的经验积累,形成了独有的知识和技能,用以处理与顾客、同事与主管的关系,这些知识与技能构成了销售人员能力的核心。知识共享可以帮助销售人员共同掌握销售的知识与技能,有助于提升个人、团队乃至组织的竞争力。因此,有必要探索零售行业一线