基于单张图像的三维人脸重建算法与应用研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lhihxk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于影视和游戏制作等领域的需求驱动,三维人脸重建一直是计算机图形学中重要研究方向。与设计师人工建模不同,三维人脸重建主要从输入数据中自动塑造人脸几何。输入类型主要有:2D数据(图像或视频),2.5D数据(立体图像或视频、深度图),3D数据(点云、网格等)等。其中基于单张图像的三维人脸重建输入设备最简单,输入数据量最少,互联网上的素材量最大,因此在面向普通用户的消费级的应用中也最具有潜力。近年来,随着智能移动终端的普及和相关的技术的进步,基于单张图像的三维人脸重建技术开始广泛应用于各种消费级的应用,比如人像编辑中面容重塑,移动游戏中的虚拟形象创建,手机解锁中的三维人脸识别等。然而目前基于单张图像的三维人脸模型重建技术,仍然存在重建效果比较粗略,个体辨识度和表情表现力不足的问题,导致了在实际应用场景中的效果仍然不够理想,还有很大的提升空间。
  本文围绕基于单张图像的三维人脸重建技术展开研究,针对图像中提取的特征语义性不足,重建的三维人脸形状比较粗略,以及极端人脸场景中应用效果不佳等技术问题,提出了一系列新的算法,使得重建人脸在个体辨识度和表情表现力方面有了明显提升,并且基于该技术研发了富有表现力的表情风格转移应用。本文研究涵盖了三维人脸重建技术上中下游三个方面:底层轮廓特征提取、核心三维重建算法和上层表情转移应用。取得的研究成果总结如下:
  ·底层特征提取方面,提出了一种基于RGBD图像的前景轮廓特征增强方法。从图像中提取前景轮廓一般需要首先对前景目标进行一致性地显著增强。然而,图像中前景内部的颜色边缘以及背景中的复杂纹理的存在,使得基于RGB的前景轮廓增强难以取得较好的效果。发现相比于颜色图,深度图往往提供了更加可靠的物体边缘信息。基于这个观察,本文提出了结合颜色和深度信息的图像显著性前景增强方法。我们的方法分为两个阶段:前景定位和轮廓推断。在前景定位阶段,生成一个滤除噪声的高亮区域作为前景目标的定位,其中深度信息主要用户辅助过滤噪声。在轮廓推断阶段,使用深度和颜色信息对目标边缘进行编码,然后引入随机游走算法来推测更加可靠的边缘。实验对比表明,我们的方法能够显著地增强前景目标的轮廓特征。
  ·核心重建算法方面,针对夸张表情人脸,提出了一种基于RGB图像轮廓特征的三维人脸重建矫正方法,使得重建的人脸更加富有表情表现力。常见的参数化人脸模型一般使用几十个常见表情基来线性合成不同表情的人脸几何。然而这种方法无法对人脸几千种不同的表情,特别是夸张极端表情进行精确表达。为了重建更加有表情表现力的三维人脸,本文一方面引入了2D轮廓特征对人脸形状进行更加精确地二维表达,另一方面增强了参数化三维人脸模型的表达能力。在2D特征轮廓的提取方面,本文设计了从局部到全局的主动轮廓方法来优化更新初始语义轮廓,来更好地贴合人脸五官特征边缘。在三维重建方面,本文在粗略的低维参数域人脸重建结果基础上,引入高维的顶点域的非参数化变形方法,使得重建的人脸超越人脸模型固有表达能力,从而更好地匹配输入的轮廓约束。实验评估表明,我们的方法重建的人脸更加具有表情表现力。同时在表情转移应用中,本文方法相比于前人方法能更加传神地转移夸张独特的表情。
  ·核心重建算法方面,针对多形态鼻子,基于增强的鼻子轮廓特征,提出了一种交替更新鼻子形状与轮廓匹配关系的三维鼻子重建方法,使得重建的不同形态鼻子更有个体辨识度。重建个性化的具有辨识度的三维鼻子,在鼻子整容、游戏捏脸、人像编辑和3D人脸识别等领域有重要价值。已有的方法难以从图像中重建出比较精确的多形态鼻子形状,一方面由于使用的参数化人脸模型表达能力有限,另一方面则是鼻子不像眼睛和嘴唇等区域一样容易提取充分而又有语义的轮廓特征。对于第一个问题,对参数化三维人脸模型加入后期非参数化变形矫正,来增强人脸模型的表达能力。对于第二个问题,针对鼻子区域皮肤颜色一致,轮廓特征难以提取的问题,应用基于RGBD的轮廓特征增强方法来改善2D轮廓特征的提取。提出了由粗到精地三维鼻子重建矫正算法,在重建的过程中,启发式地更新三维鼻子轮廓以及轮廓匹配关系,以适应不同的视角和形状。实验结果表明,本文的方法可以有效重建各种不同形态的鼻子形状,显著提高了鼻子的个体辨识度。
  ·上层应用场景方面,针对夸张表情和多形态的人脸,研发了基于精细三维人脸重建的表情风格转移技术,实现了个性化表情包模仿应用。在网络聊天中,人们越来越多地创作和使用表情包图像来表达自己强烈或者微妙的情感和情绪。这些表情包图像一般包含一张非常有表现力的夸张表情人脸,配以简短有趣的文字。而最近,微信推出了表情包跟拍功能,使得用户可以模仿流行的表情包来个性化地定制自己的专属表情包。这类应用往往需要能够转移夸张表情,而以往的表情转移工作少有关注这类独特的表情。本文针对夸张独特的表情,提出了富有表现力的表情风格转移技术,来实现普通用户对流行的表情包进行个性化的忠实传神模仿。我们的方案和贡献主要包括几何和纹理转移两部分。在几何转移方面,应用本文提出的基于轮廓特征的三维人脸重建矫正技术对夸张表情建模,从而可以实现没有扭曲的自然而又传神的人脸几何变形。在纹理转移方面,在预训练的人脸识别网络优化表情包图像和用户图像的混合,从而在转移纹理细节的同时能够保持用户的身份特征。在一系列的流行表情包图像上验证了我们的方法的有效性。
其他文献
随着计算机处理能力的增强,个人手持设备的普及,将三维城市模型服务推广到普通用户中在技术上变得逐渐可行,人们对基于三维城市模型信息服务的需求也越发旺盛。在游戏及VR等应用场景中,为了提升玩家用户的沉浸感,常常需要将指定的城市模型接入到应用中。因此,在保持原始扫描获得数据的语义信息和视觉效果下,应尽量提高其存储和处理效率。所以需要对原始数据进行一定的预处理,在提取其语义信息后对模型进行适当的简化。  
电网中的异常检测指电网在未受到攻击的情况下,由于个别或部分元件发生故障,导致网内其他设备表现出偏离平衡状态的情况。严重的电网异常容易引发大规模停电事故,从而造成巨大的经济损失。因此,分析人员需要快速、准确的检测电网异常,以此为基础做进一步的故障原因诊断、影响分析,并采取对应的修复措施。已有的电网异常检测工作多基于聚类、分类等自动化方法,然而随着检测准确率的不断提高,误报与漏报率仍居高不下。传统的漏
学位
光谱图像是一种通过捕获数个频率范围的电磁波进行成像得到的图像。光谱图像除仅有一个波段的单色图像外,还有包含三个到数十个波段、光谱分辨率较低的多光谱图像,与光谱分辨率在10nm范围内、常有数十至数百个波段的高光谱图像,这种含有丰富光谱信息的图像在科学研究种具有重要的作用。然而,由于超越可见光波长范围的波段无法被人类直接观察、且大量的波段数据本身也加重了计算负担,光谱图像的可视化与降维融合成为了十分重
随着科学技术的发展,每个人的生活都离不开各式各样的互联网服务。但是,互联网的服务系统却面临着信息爆炸带来的信息过载挑战。个性化推荐系统则是解决这一问题的核心方法。  现阶段面向大规模互联网服务系统中的个性化推荐主要面临着以下三大块棘手的问题:海量移动用户访问日志难以识别;项目受短期热点的影响激增;不同的协同过滤推荐应用很难利用同一个算法来提升效果。  第一个问题,是来源于用户层面的挑战。数据的获取
在信息化的时代,人们获取大量数据,从中提取关键信息,并据此做出决策。各个领域的从业者,包括科学家、分析师、记者、设计师,乃至普通大众,均意识到数据和数据分析的重要性。其间,数据可视化和可视分析作为发掘数据中有效信息、传达见解和交流与协作的高效工具被广泛运用于商业智能、城市规划、新闻传播等。  伴随着互联网、传感器、物联网等技术的不断发展,人们获取信息的能力和分析数据的需求不断增长。这样的趋势对于可
手势交互可以通过多种交互设备进行,如深度相机、彩色相机、数据手套、表面肌电电极等。基于表面肌电的手势交互凭借其易穿戴、对光照环境的鲁棒性以及对残疾用户运动意图较强的识别力等优点,成为人机交互领域的新型研究热点之一。  在基于表面肌电的手势交互中,其核心问题是如何准确地对肌电信号建模并识别出用户输入信号中所表达的含义。研究者们已基于经典机器学习和深度学习的框架对表面肌电手势识别进行深入研究,但依然存
随着计算机技术的快速发展,互联网积累了海量的时序数据,如问答数据、社交网络数据和电商交易数据等。如何对这些时序数据中内隐因素之间的交互进行建模,理解个体用户或群体用户在时序数据中所蕴含的意图和行为,是当前人工智能领域研究的热点和难点。本文以问答系统中时序数据理解为研究对象,提出了若干算法模型并进行验证。  一般而言,问答时序数据中丰富的内隐交互信息可以分为结构时序交互和语义时序交互。结构时序交互表
学位
随着云计算、大数据和物联网等信息技术的飞速发展,全球数据呈现出海量集聚的特点。这些从不同来源所获取的海量数据反映着人类社会的生活和规律,如群体出行和交通流量。因此,如何对多源数据进行分析与理解,以更好地全面了解这些多源数据所蕴含的丰富信息,是一个值得研究的重要问题。  多源海量数据本质上是序列数据,这些从不同来源获得的序列数据之间相互补充、彼此交互,刻画着人类社会中群体的行为习惯和生活模式。本文针
学位
问答系统是体现人工智能的一种通用方法,是自然语言处理领域非常重要的一个方向。随着多种媒体数据的积累和深度学习在各个领域取得的突破性进展,跨媒体智能给问答系统带来了新的机遇和挑战。以视觉问答为典型代表的跨媒体问答方向得到了广泛的关注和研究。  视觉问答(Visual Question Answering,VQA)是回答关于图像问题的任务,输入为一幅图像以及关于该图像的开放自由的自然语言问题,输出为文
学位
图像及视频数据包含大量的视觉信息,人类可以利用这些信息进行学习和推理,进一步理解活动规律和社会行为。随着数据的海量涌现,如何从获得的海量冗余的视觉数据中甄别和遴选出关键视觉信息,并为后续视觉语义内容理解和分析提供支持,是当今计算机视觉领域所关注的热点问题,具有十分重要的研究意义。  在这些热点研究中,如何在去除图像、视频数据中冗余背景信息基础上,甄别发现具有丰富语义信息的视觉目标物体,即显著性目标