AI成真:虚拟数字人走进生活

来源 :电脑报 | 被引量 : 0次 | 上传用户:bobby_hong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

虚拟数字人的诞生


  虚拟数字人,是存在于数字世界的“人”,通过动作捕捉、三维建模、语音合成等技术高度还原真实人类,再借助AR/MR/VR等终端呈现出来的立体“人”。在人工智能、虚拟现实等新技术浪潮的带动下,虚拟数字人制作过程得到有效简化、各方面性能获得飞跃式提升。
  “虚拟数字人”一词最早源于 1989 年美国国立医学图书馆发起的“可视人计划”(Visible Human Project, YHP)。这些“虚拟数字人”主要是指人体结构的可视化,以三维形式显示人体解剖结构的大小、形状、位置及器官间的相互空间关系,即利用人体信息,实现人体解剖结构的数字化。主要应用于医疗领域的人体解剖教学、临床诊疗等。
  该技术在发展中拓展到高保真数字人的技术边界,在电影技术应用中得到拓展,提升了电影和游戏开发的商业机遇,主要应用的技术包括:照相建模、实时捕捉。
  虚拟数字人的发展与其制作技术的进步密不可分,从最早的手工绘制到现在的 CG(Computer Graphics,电脑绘图)、人工智能合成,虚拟数字人大致经历了萌芽、探索、初级和成长四个阶段。行业人士称,不久的将来,现实世界中的每一个地方和事物——每一条街道、每一个灯柱、每一栋建筑物和每一个房间都会在镜像世界中拥有它的全尺寸“数字孪生兄弟”。


早期的虚拟歌姬林明美

  20 世纪 80 年代,人们开始尝试将虚拟人物引入到现实世界中,虚拟数字人步入萌芽阶段。该时期虚拟数字人的制作技术以手工绘制为主,应用极为有限。1982 年,日本动画《超时空要塞》播出后,制作方将女主角林明美包装成演唱动画插曲的歌手,并制作了音乐专辑,该专辑成功打入当时日本知名的音乐排行榜 Oricon,林明美也成为了世界上第一位虚拟歌姬。
  1984年英国人 George Stone 创作出一个名为Max Headroom的虚拟人物,Max拥有人类的样貌和表情动作,身穿西装,佩戴墨镜,曾参演了一部电影,拍摄了数条广告,一度成为英国家喻户晓的虚拟演员。由于技术的限制,其虚拟形象是由真人演员通过特效化妆和手绘实现。
  21 世纪初,传统手绘逐渐被 CG、动作捕捉等技术取代,虚拟数字人步入探索阶段。该阶段的虚拟数字人开始达到实用水平,但造价不菲,主要出现在影视娱乐行业,如数字替身、虚拟偶像等。电影制作中的数字替身一般利用动作捕捉技术,真人演员穿着动作捕捉服装,脸上点上表情捕捉点,通过摄像机、动作捕捉设备将真人演员的动作、表情采集处理,经计算机处理后赋予给虚拟角色。
  《指环王》中的角色咕噜就是由 CG 技术和动作捕捉技术产生,这些技术后续还在《加勒比海盗》《猩球崛起》等电影制作中使用。之后日本还制作了第一个被广泛认可的虚拟数字人“初音未来”,初音未来是二次元风格的少女偶像,早期的人物形象 主 要 利 用 CG 技 术合成 ,人物声音采用雅马哈的VOCALOID系列语音合成,呈现形式还相对粗糙。
  近五年,得益于深度学习算法的突破,数字人的制作过程得到有效简化,虚拟数字人开始步入正轨,进入初级阶段。该时期人工智能成为虚拟数字人不可分割的工具,智能驱动的数字人开始崭露头角。

智能合成和动作捕捉迁移



通过将捕捉采集的动作迁移至数字人是目前3D数字人动作生成的主要方式,核心技术是动作捕捉

  迈克斯·泰格在《生命LIFE 3.0》一书中说,生命3.0是一个由人工智能重塑的时代。在这个时代,我们可以设计自己的硬件和软件。
  所谓的“像真人”,不外乎是运用“AI合成”技术。“虚拟主播”通过提取真人主播新闻播报视频中的声音、唇形、表情动作等特征,运用语音、唇形、表情合成以及深度学习等技术联合建模训练而成。
  该项技术要能够将所输入的中英文文本自动生成相应内容的视频,并确保视频中音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果。但在此之前,出现在大众媒体上的虚拟主播,多半只有声音,或者匹配一个量身定制的虚拟形象,比如微软小冰在东方卫视担任天气预报员就是如此。


真人演员会穿戴实时动捕的头盔和设备去实时地驱动虚拟的角色,然后在引擎中进行各种效果的技术整合

  要實现这样的效果,两大要求缺一不可。其一是高逼真度。要能够自动生成语音、表情、唇动等信息完全一致的自然视频,并已达到商用级别。其二是低成本的个性化定制。小数据的学习模型,使用少量用户真实音视频数据,快速迁移生成虚拟的分身模型,快速定制出高逼真度的分身模型。最后,使用时输入一段文本,即可生成与真人无异的同步音视频。
  除此之外,语音合成引擎和图像生成引擎也是重要的两点。在语音合成引擎中,基于用户少量音频数据,使用语音合成技术,快速学习用户音色、韵律、情感等多维度特征,建立输入文本与输出音频信息的关联。
  图像生成引擎,则是使用人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模,建立输入文本、输出音频与输出视觉信息的关联映射,生成输出分身视频。   最后,两大引擎协作打磨,最终才能实现“AI合成主播”,能够逼真模拟人类说话的声音、嘴唇动作和表情,并将三者自然匹配,做到惟妙惟肖,让机器以更逼真自然的形象呈现在用户面前。
  目前2D、3D 数字人均已实现嘴型动作的智能合成,其他身体部位的动作目前还只支持录播。2D、3D 数字人嘴型动作智能合成的底层逻辑是类似的,都是建立输入文本到输出音频与输出视觉信息的关联映射,主要是对已采集到的文本到语音和嘴型视频(2D)/嘴型动画(3D)的数据进行模型训练,得到一个输入任意文本都可以驱动嘴型的模型,再通过模型智能合成。
  除了虚拟主播,电影产业也把虚拟数字人技术发挥到了极致,最常用的是基于 Marker(马克点)的光学动作捕捉,即在演员身上粘贴能够反射红外光的马克点,通过摄像头对反光马克点的追踪,来对演员的动作进行捕捉。这种方式对动作的捕捉精度高,但对环境要求也高,并且造价高昂。光学式解决方案比较出名的企业有英国的Vicon、美国的 OptiTrack 和魔神(MotionAnalysis),国内的有Nokov、uSens、青瞳视觉等。
  惯性动作捕捉主要是基于惯性测量单元(Inertial Measurement Unit,IMU)来完成对人体动作的捕捉,即把集成了加速度计、陀螺仪和磁力计的IMU 绑在人体的特定骨骼节点上,通过算法对测量数值进行计算,从而完成动作捕捉。这种惯性动作捕捉方案价格相对低廉,但精度较低,会随着连续使用时间的增加产生累积误差,发生位置漂移。
  惯性式动捕方案的代表性企业有荷兰的 Xsens,以及国内的诺亦腾(Noitom)、幻境、国承万通等。基于计算机视觉的动作捕捉主要是通过采集及计算深度信息来完成对动作的捕捉,是近些年才兴起的技术。这种视觉动捕方式因其简单、易用、低价,已成为目前使用的频率较高的动作捕捉方案,代表性产品有 Leap Motion、微软Kinect 等。

渲染让真实性和实时性均大幅提升


  人体动态三维重建一直是计算机视觉、计算机图形学等领域研究的重点,主要采用摄像机阵列采集动态数据,可重建高低频几何、纹理、材质、三维运动信息。
  光场成像是计算摄像学领域一项新兴技术,它不同于现有仅展示物体表面光照情况的 2D 光线地图,光场可以存储空间中所有光线的方向和角度,从而生成场景中所有表面的反射和阴影,这为人体三维重建提供了更加丰富的图像信息。
  近年来 Mirosoft、Google、Intel、Facebook 等公司都在积极展开相关研究,其中 Microsoft 的 108 摄像机 MRstudio已经在全球各大洲均有建设;Google 的 Relightable 系统将结构光、动态建模、重光照技术集成到一起,在一套系统中包含模型重建、动作重建、光照重建的全部功能;国内清华大学、商汤科技、华为等也展开了相关研究,并取得国际水平的同步进展。
  PBR(Physically Based Rendering,基于物理的渲染技术)渲染技术的进步以及重光照等新型渲染技术的出现使数字人皮肤纹理变得真实,突破了恐怖谷效应。恐怖谷效应由日本机器人专家森政弘提出,认为人们对机器人的亲和度随着其仿真程度增加而增高,但当达到一个较高的临界点时,亲和度会突然跌入谷底,产生排斥、恐惧和困惑等负面心理。
  数字人恐怖谷效应主要由数字人外表、表情动作上与真人的差异带来,其中外表真实感的关键就是皮肤材质的真实感,无论是塑料感还是蜡像感都会给人类带来不适。在 PBR 技术出现之前,限于相关软硬件的发展程度,所有的 3D 渲染引擎,更多的着重在于实现 3D 效果,在真实感体现方面差强人意。


计算机中的虚拟数字人在任意虚拟环境下可以呈现近乎真实的效果,彻底改变了传统渲染方式通过模拟皮肤复杂的透射反射来计算渲染总会带来误差的局面


头发制作和渲染已经精细到各个层次

  PBR 是基于真实物理世界的成像规律模拟的一类渲染技术的集合,它的关键在于微表面模型和能量守恒计算,通过更真实的反映模型表面反射光线和折射光线的强弱,使得渲染效果突破了塑料感。目前常见的几款 3D 引擎,如UnrealEngine 4、CryEngine 3、 Unity 3D 5,均有了各自的 PBR實现。
  电影里采用最广泛的的重光照技术(Relighting)是通过采集模拟多种光照条件的图像数据,测算数字人表面光照反射特性,并合成出数字人模型在新的光照下的渲染结果。该技术在 2000 年初由南加州大学实验室创建LightStage 平台时提出,并开始了相关研究,目前已经经过 7代的迭代发展,已被成功应用到《阿凡达》《复仇者联盟》等众多经典影片的角色制作中。国内清华大学、浙江大学也都建设了重光照系统,可以实现高精度人体光照采集与重建。
  早期的实时渲染只能选择高度抽象和简化过的渲染算法,牺牲了画面质量。随着硬件能力的提升和算法的突破,渲染速度、渲染效果的真实度、渲染画面的分辨率均大幅提升,在虚拟人物实时渲染方面已经能做到以假乱真,这些都代表着未来的AI发展方向。
其他文献
全球最大汽车集团之一的丰田汽车,如何看待汽车行业的电动化趋势?  丰田汽车的掌门人丰田章男近日在日本汽车制造商协会年终新闻发布会上表示,他对当前正在兴起的“电动车革命”感到不满。他认为很多企业会消亡,很多投资资金会付诸东流,这个过程中还将释放出更多的二氧化碳。丰田章男表示,如果所有汽车都是电力驱动,那么日本到夏天时将发生电力短缺的情况。另外,向电动汽车全面转型所需要建立的基础设施将使日本花费14万
期刊
摘要:目的:探讨精细化护理对手术室护理质量及护理满意度的作用。方法:本文选取我院于2011年10月-2013年02月收治的100例前列腺增生患者,将其随机分为护理组和对照组,护理组给予舒适护理干预,对照组采用传统护理方式,临床观察对比两组患者的护理满意度、术后疼痛程度、膀胱痉挛三项指标。结果:护理组的术后疼痛程度和膀胱痉挛结果分别是12.00%和4.00%,对照组的术后疼痛程度和膀胱痉挛结果分别是
期刊
据行业报道,台积电2021年先进制程的产能已经被“预订一空”。其中,苹果iPhone应用处理器及ARM架构电脑处理器扩大量产规模,独占5nm超过八成产能。苹果空出的7nm產能,也被超微半导体接手。  台积电Fab 18厂第三期将在2021年第一季开始进入量产,5nm生产线全数到位,每月可提供超过9万片的投片产能。据分析,台积电会进行上、下半年产能调配,部分产品线会在上半年预先投片,避免下半年旺季订
期刊
欢迎大家加入电脑报理财群:329789299,验证码:陈邓新。  特斯拉一直是资本市场的焦点。  日前,特斯拉CEO马斯克在一次活动中表示正在考虑切入家用空调市场:“空调是一个我非常乐意开展的项目,可能明年就会开始着手。我们认为能制造出更安静、效率更高、更节能的空调。”  马斯克进一步表示特斯拉正在开发一个项目,该项目将创建一个住宅空调和供暖系统,该系统将使用特斯拉Y型电动汽车热泵的原理来构建。 
期刊
美圖欣赏
期刊
充电速度突飞猛进  回望2020年,手机快充的发展足以称得上“遍地开花”,有线充电与无线充电都取得长足进步,让手机的充电时间变得越来越短,“5分钟”与“30分钟”的充电量已经成为了衡量一款手机快充功能的关键指标。  此前主流的有线快充功率是在33W到66W之间,今年,国产手机四巨头华米OV都已经拥有超百瓦的有线快充技术,其中vivo与小米表现更激进均推出了支持120W的商用机型,如小米10至尊纪念
期刊
随着AirPods Max开始向全球客户交付,数量不详的客户被告知他们的订单将延迟。客户报告说,退货大约发生在送货过程的中途。其中有人指出,他们的包裹在被停送之前,已经到达了UPS设在加州安大略市的中心,但无法快递。  根据联合包裹运送服务公司(UPS)发出的通知,告知订購的苹果耳机AirPods Max将不会送达的原因是含有“危险材料”。  寄给加拿大多个买家的UPS发货通知说:“这个包裹含有危
期刊
摘要:目的:探讨在老年高血压患者临床护理中介入心理护理的效果。方法:回顾分析2013年1月至2014年5月,我院住院老年高血压患者130例的临床资料,在常规护理的基础上加行心理护理,总结护理体会。结果:本组患者的血压水平均得以有效控制,心理状态良好。结论:对老年高血压患者实施心理护理干预有利于改善患者的心理状态,改善临床疗效,值得推广应用。  关键词:高血压;老年患者;心理护理  高血压是临床常见
期刊
苹果给了用户一条更容易走的路  AirPods Max作为苹果首款头戴式耳机,这也是苹果收购Beats之后第一次推出非Beats品牌的头戴式降噪耳机,将AirPods品牌全面化的意图已经十分明显。  对于AirPods Max来说,大家的关注重点第一个应该就是它的价格,4399元在头戴式无线降噪耳机里算是相当高昂,几乎是主要对标产品Bose 700、索尼1000XM4的2倍。而自家AirPods/
期刊
不是蓝牙音箱,只适用苹果设备  当HomePod mini以749元的价格面世时,很多人或许都有点小冲动。但是和多数智能音箱通过蓝牙连接不同,HomePod系列是通过WiFi AirPlay2协议连接,并且只能使用苹果自家设备做音频源。所以相对普通的蓝牙音箱来说局限性要大很多,基本就只能在家里固定位置使用,当然,这其实本就是它的设计目的之一。  AirPlay协议对WiFi资源消耗较大,特别是信号
期刊