九零后中国留学生开发出AI“隐身衣”技术

来源 :海外星云 | 被引量 : 0次 | 上传用户:hezefgj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

  刚刚过去的 2020 年 ECCV(欧洲计算机视觉国际会议),有一项 AI“隐身衣”技术引人瞩目。该技术来自本次会议收录的论文《光流 - 边缘引导的视频补全》。ECCV 是计算机视觉三大会议之一,每两年举办一次,论文录取率仅 27%。该论文第一作者高谌是一位九零后北京小伙,目前在弗吉尼亚理工大学计算机工程专业就读博士三年级,师从华人教授黃嘉斌。
  该研究成果主要是开发出一项 AI 视频处理算法,其能实现诸多 “炫彩” 成果:比如正在行駛的车辆,突然人间蒸发;正在坐秋千的小孩,突然只剩下秋千架;正在骑马的运动员,跨过栏杆人和马都不见。这不是变魔术,而是本次 AI 视频处理算法的功能之一,它依托一种名为光流引导(Optical Flow)的方法。
  据了解,当前视频处理主要面临几大难题:补全后的光流难以做到分段光滑,难以保证时序连续型,难以在高分辨率下实现修复,更难以降低视频对计算的开销。基于此,高谌提出一种以光流边缘为引导的光流补全技术,再利用补全的光流来完成视频补全的算法。相比此前方法,该算法可保持运动边界的清晰度。
  研究起源于在 Facebook 的实习
  本次研究开始于 2019 年暑假,当时高谌在 脸书实习,他跟导师黃嘉斌讨论后决定了该方向。在查考相关文献、并了解该领域的现有问题后,他开始着手算法开发。该研究的主要原理——光流法是视域中物体运动检测的概念,其用于描述运动所造成的观测目标、表面或边缘的运动,主要应用于计算机视觉和影像处理等。使用光流法,可寻到不同帧之间的关系,并通过在不同帧之间传播信息来补全视频。
  本次研究主要包含3个步骤:光流完成、内容传播和融合。第一步是光流完成。具体操作时,要计算相邻帧之间的正向光流和反向光流、以及一组非相邻帧 (Non-local) 的正向光流和反向光流。由于视频可能出现破损,计算出的光流也需要补全。另外,因为光流是分段光滑的,是否能得到一个锐利光流边缘,将直接影响最后的光流补全结果。最终,高谌选择利用神经网络来补全光流边缘,再以光流边缘为引导补全光流。第二步是内容传播。这时要按照光流的轨迹,为每个丢失的像素找到一组候选像素。顺着正向光流和反向光流,最多可找到两个候选点。而在非局部光流的帮助下,通过检查三个额外的帧,可以获得额外的三个候选帧。高谌表示,对于每个候选帧,都要估计一个置信分数以及一个二进制有效性指标。第三步是融合。使用置信加权平均值,将每个缺失像素的候选像素与至少一个有效候选像素融合。并通过梯度域的操作方式,可避免明显的拼接裂缝,从而生成无缝的结果。假如一个像素没有任何候选像素,就意味着它无法通过时间传播来填充。这时,高谌选择一个关键帧,并使用单个图像补全技术来填充它。
  可实现无痕补视频
  本次算法,相比同类算法主要有三大优点:第一,此前的补全视频中,用户可明显看出视频 “补过”,“补丁” 边界处非常明显。如下图所示,其结果往往带有痕迹,显得很不自然。而使用本次算法得到的补全视频,其补全区域是无痕的。第二,此前用算法给视频补帧时,只能补到前一帧和后一帧,如果找不到前一帧或后一帧的信息,就会无法补全。而本次算法,不仅能补全前一帧和后一帧,还能跳着补帧。比如,直接跳到第一帧去借用信息,或者直接跳到最后一帧去借信息,这样就不局限于上一帧或下一帧。另外,此前方法在处理有周期性运动物体出现的视频时往往比较困难,针对该难题高谌通过引入非局部 ( Non-local ) 信息,来提升视频修复的准确度。第三,以前的算法补出来的光流不是很平滑,往往带有明显的接缝。而该团队的算法主要基于光流边缘进行补全,最终可得到分段光滑的光流。以上三个原因,让本次研究的结果,比以前方法更好。
  此外,由于此算法不局限于 GPU 内存,所以可处理最高 2K 分辨率的视频。这种全自动的算法,可告别之前手动一帧帧地删除视频内容。众所周知,机器学习算法的开发过程费时费力,开发成本高。高谌认为,他们的新算法以完全自动化的流程取代手工,会达到更低的成本。事实上,机器学习相当于优化问题的过程,优化过程中需要很多 CPU 和 GPU 资源,比如在本次研究中脸书就提供了大量 GPU。所以,算法开发成本非常高,而算法一旦开发出来,就可以一劳永逸地进行部署,不管多少视频都能完全自动化处理。并且,对于一般视频剪辑者来说,即便没有计算机知识,也能使用该技术。
  已经开源,可供厂商和个人使用
  在肉眼观感上,依托该算法修复的视频,已能做到无痕抹除水印、无痕补全画面残缺,在目标识别和影视后期(视频编辑)中,具有很大应用前景。
  除用于视频编辑外,Vlog 创作者们可使用该算法,营造一个人突然消失的场景;普通用户则可完成 “美图秀秀” 式的视频处理,比如假期旅游拍摄视频时,可能你本来想拍景点,但由于游客太多挡住了景点,使用该算法就能把游客删掉,最终只保留景点本身的视频。虽然这一过程和删除图片中的内容很相似,但这里是删除同一帧视频中的内容,这也是相比照片处理的难度所在。
  再就是针对部分内容缺失的老旧视频,该算法能修复出丢失或破坏的地方。以几十年前的胶片视频为例,假如视频左上角被水淹过,此处就是完全一片黑色,既无颜色也无信息,而使用本次算法,则可补全已缺失部分。具体操作时,如果某一帧有缺失,就得看能否从视频中的其他帧借到有用信息,也就是 “补丁” 内容不是凭空生成,而是本身就在视频里。这样补出来的视频在播放时,就会非常流畅。
  还有一种可能,整个视频都找不到可借用部分,那就只能求助另一个算法,这种方法叫单帧补全,也就是说从其他帧借不到信息,就只能用一个网络来把这一帧缺失的信息补全。这一帧补全的信息,还可以借给其他帧,即先从其他人那借,借不过来就自己生成一些,相当于鸡生蛋蛋生鸡,不断循环借出去借回来的过程,直到最后可让整个视频都补全,且播放非常流畅。当前的局限在于,算法无法理解视频的内容,它只能借助光流找到信息并把信息补全,这也是当前人类 ”抠图师”的优势所在。
  本算法已经在 GitHub 开源,任何人都可以免费使用。高谌表示,欢迎厂商或其他研究人员把该项目的源代码合并到软件中。由于已经开源,只要你对视频编辑感兴趣,就能直接用本次研究结果来做创造性作品。在 DAVIS 数据集上,高谌将该成果与已有成果进行对比,在峰值信噪比(PSNR,Peak Signal to Noise Ratio,一种评价图像的客观标准)、结构相似性(SSIM,Structural SIMilarity,一种衡量两幅图像相似度的指标,LPIPS)上,均优于其他成果。不过,高谌在论文中坦言:“我们的方法运行速度为 0.12 fps,(速度)与其他基于光流的方法相当...... 我们承认运行时间稍慢是个弱点。”对此,他表示该成果已经开源,因此非常期待圈内人士对其进行优化。
  今年 28 岁的高谌,本科时就读于俄勒冈州立大学,主修电子与计算机工程;硕士来到密歇根大学安娜堡分校,就读于电气与计算机工程专业;博士则就读于弗吉尼亚理工大学计算机工程专业,师从华人教授 Jia-Bin Huang。截止目前,已发表 7 篇被 ECCV、NeurIPS 等顶会录用的论文。2019 年夏季,高谌在 Facebook 计算摄影组担任研究实习生。2020 年夏季,则在谷歌安卓相机算法团队,担任研究实习生。谈及他未来的计划,他表示仍然想去企业工作。
  (摘自美《深科技》)(编辑/费勒萌)
其他文献
有些人天生具有一些“超常”体能,可能与他们的遗传构成有关大多数人在水下的视线是模糊的我们大多数人无法在冰屋内长期居住  具备强大“钢铁之躯”的超人通常只是科幻小说和漫画中的人物,让我们普通人无法企及。  然而,生活中的确有一些人具备一些特殊体能和本领,令大多数人只能羡慕和梦想。  是什么原因让这些人具备一些常人没有的本领呢?是遗传基因突变还是他们的适应能力强?  以下的五大实例或许帮我们揭开人体的
若你对生活、工作感到倦怠,或是存在不满,以下三个小练习,或许能让你的烦闷人生重现美。练习一:转换工作场所布置  工作是个容易使人们昏昏欲睡的地方。我们到班,然后忙着手边的工作。我们的时间被专案塞满,有些天里,我们几乎没有时间抬个头,或者记得照顾自己。  今天,我们要改变一下这种情况,移动一下你办公桌附近的照片,重新安排墙上的东西。如果可以,稍微移动整个工作位置,重点是从环境上破除你的工作场所,营造
查尔斯·达尔文去世近140年后,科学家首次证明了他的进化论中一个重要猜测。3月18日,剑桥大学圣约翰学院生物人类学博士生Laura van Holstein在《英国皇家学会学报B(Proceedings of the Royal Society B》上发表了一项研究,她发现哺乳动物亚种在进化中发挥的作用比之前认为的更为重要。  她的研究现在可以用来预测人类应该重点保护哪些物种,防止它们的灭绝。物种
变成化石的鱼层层叠叠。也许,巨大的冲击波引发湖啸,水里的鱼带着满腮的熔岩颗粒,被滔天巨浪抛上岸,叠成一堆  大约6600万年前,一度统治地球两亿年的恐龙突然灭绝;目前的权威解释是,因为一颗天外小行星撞地球导致尘埃蔽天,酸雨盖地,断绝食源的恐龙和众多动植物从此绝迹。这个“恐龙杀手”被称为希克苏鲁伯陨石。  多少年来,科学界对恐龙灭绝的研究一直没有停顿。那颗“杀手”陨石撞地球的时间、地点对恐龙灭绝至关
α-酮戊二酸盐(AKG/α-KG)是三羧酸循环的中间产物之一,是人体中天然存在的化合物,在人体内一系列释放、储存能量的反应中起关键作用。有研究表明,随着年龄的增长,血浆中AKG的水平会大幅下降。且α-酮戊二酸盐无法从食物中获取,可以通过膳食补充剂的形式进行补充。  作为膳食补充剂的一种,健身爱好者们服用AKG以增肌塑形。而从2014年开始,研究人员发现了AKG在延长健康寿命,以及骨质疏松、慢性肾脏
俄国摄影师戈什科夫的作品《拥抱》  被誉为野生动物摄影“奥斯卡”的2020年“野生动物摄影师大奖赛”结摄影师戈什科夫博得头筹。  获奖作品名为《拥抱》,“主人公”是生活在俄罗斯远东深山老林中的一只西伯利亚虎(阿穆尔虎)。  照片中,这只神情梦幻的雌虎似乎在与满洲里冷杉紧密拥抱。其实,它是在留下体味,宣示自己的“领土”主权。  大奖赛评审员基德曼一考克斯形容,光线、颜色、质感让这幅照片俨如“油画”。
用总统特朗普的话说,美国的“正义力量”是为了阻止“化学武器的生产、传播和使用”  对叙利亚发动空袭,美、英、法三国的理由是,有必要维持禁止使用化学武器的国际禁令,捣毁总统阿萨德的化学武器库,并且阻止其再次使用化学武器攻击叙利亚平民。  英国首相特雷莎·梅表示,英国一贯站出来捍卫全球法律法规和道德准则,以维护本国国家利益和有秩序的国际社会的整体利益。  然而,英国政府在之后发表的正式法律辩护中强调,
温江涛在演讲  “我们现在已经进入到了一个面向特定域设计架构的时代,现在最大的限制因素就是能耗,我们需要提出一系列新的理论指导下的算法,针对特定应用領域,面向应用和算法设计架构,面向应用和架构设计算法,思考怎么可以更高效地感知、处理我们获得的数据。”铂岩科技CEO温江涛在峰会上表示。  温江涛于2012年回到学术界后仅仅3年即当选国际知名学会IEEE Fellow,是当时中国大陆最年轻的当选者。他
阅读的艺术  作者:聂震宁  出版社:作家出版社  出版时间:2020年1月书籍简介  《阅读的艺术》辑录了著名出版人、作家聂震宁的六十余篇关于阅读、书籍乃至出版等方面的随笔、评论和演讲。作者从读者、作者身份而进入出版业,从业数十年,对阅读的价值、出版的意义及前景有着长期而细致的观察和独特的体悟,并以“阅读”为切入点,对整个文化生态有着深入的思考。作者身兼“写书人”与“出书人”,一以贯之的是一个“
欧洲空间局(ESA,European Space Agency)确定了一项2025年的发射任务:清理太空,这将是史上第一次捕获并处理轨道上的太空垃圾的任务。  与瑞士初创公司“清洁太空”签署了总额为8600万欧元的合同,委派该公司制造一款特殊卫星“清洁太空-1”(ClearSpace-1),构造近似于一颗小型卫星,该设备会用爪子抓牢太空垃圾,并将其护送至较低轨道,二者一同进入大气层并燃烧。  ES