论文部分内容阅读
揭开迷雾——了解GAN
GAN是Generative AdversarialNetworks的缩写,译为生成式对抗网络,它是一种深度学习模型。大家知道要让机器拥有人工智能,大量的学习是必不可少的,现在Al大多使用的是大数据+深度学习的模式,而要让机器深度学习,模型是必不可少的要素。GAN主要由N、A、G组成(图1)。
N即Networks,深度神经网络,Al通过神经网络可以学习和自我学习,从而掌握很多高深的技术。
A即Adversarial:对抗,Al通过深度学习后成为“高手”,在模型系统中这个“高手”会和自己对弈,从而在互相对弈中提高技能。
G即Generative(Model):生成模型,通过神经网络学习以及自我对弈,这样即可生成模型,最终通过不断完善模型和算法,让Al拥有超凡的人工智能。
艺惊四座——GAN工作原理揭秘
通过上面的描述我们简单了解了GAN的组成,那么在Al的实际运行中,GAN又是怎样实现深度学习,让Al拥有高超的人工智能的呢?
如上所述,GAN是由神经网络、对抗和模型组成的,其中核心则是对抗。对抗模型也称为GAN框架,这个框架主要由生成模型G和判别模型D组成。在开始训练的时候,系统会把真实样本数据(X)随机传送一份给判别模型D,D的目标是尽可能正确识别出真实样本(如果正确则输出为“真”或者“1”)。同时用于识别的噪声数据样本(Z)也会随机传输一份给生成模型G,G会将处理的数据也传输给D进行判别。这样D既要判断真实的数据(并尽可能识别为真),也要对噪声数据进行识别(尽可能正确地揪出生成的样本,也就是假样本输出为“假”或者0)。在训练过程中双方都不断优化自己,直到达到平衡,即假样本与真样本完全不可区分(图2)。
当然技术术语的解释总是很晦涩,我们可以用足球运动来进行比喻。在GAN框架中,这里我们将生成模型G比喻为球员的“假摔”,他们的目标是使用各种手段迷惑裁判,使得自己进攻或者防守战术动作是合规的。比如球门前的假摔看上去像真的对方犯规一样,判别模型则相当于裁判,他们的目标是将球员各种混杂在合规战术里的违规动作找出来。在球员和裁判的不断对抗中,球员的“假摔”水平越来越高,裁判识别“假摔”的水平也越来越高。随着两方水平的不断提高,最终谁都无法区分出哪个动作是真正的“假摔”,也就是Al的水平已经实现以假乱真(图3)。
当然在实际的应用中,Al不是用来制作兴奋剂,而是指其强大的自我纠错和学习能力。借助GAN框架,Al可以拥有人类无法想象的超级能力。比如上一期介绍的自画像,Al可以描绘出入类无法表达的画面。在类似的场景中还有很多有趣的应用,比如在很多广告创意中,艺术家会投入很多时间设计在视觉上与其他元素的形状和纹理相兼容的字形,但是这样手工设计的字形是和当前场景紧密集成在一起的,即使是同一幅画面,如果要制作出同样效果的字形,艺术家也不得不重复劳动,因为根据目前的技术很难将它迁移到其他类似的项目中。
现在借助GAN的学习,Al可以很轻松地学会并领会艺术家的意图,它会先对画面环境、光线、场景等进行学习,然后对字体在这画面的各种情形进行读取,并将字体的每个元素拆分学习,如对字体的形态、颜色、手法等进行精密学习,从而精准复制出和海报场景非常契合的字形,并将这些原来很难迁移的字形进行任意的移植(图4)。
突破限制——GAN给我们带来更多
通过上述介绍可以看到,借助GAN框架学习,Al可以掌握甚至超过很多人类掌握的技能。Al的这些技术可以给我们的生活带来很多的便利。
比如GAN对字体超高的学习能力,它可以被用来学习生成各种各样的字体,同样可以用它来进行个人字体、字迹的辨别。这样以后如果哪个老赖签字却否认是他签名的文字,我们可能不要借助专业的鉴别机构就可以轻松地进行鉴别了(图5)。
当然GAN还有很多应用,比如基于Age-cGAN开发的应用OLDIFY,可以合成你任意年龄之后或者之前的形态,只要有一张年轻时候的照片,你就可以提前知道自己几十年之后,或者回忆十几年之前的样子,这是不是很有趣(图6)?
当然GAN框架在很多领域还有非常实用的应用,比如在医学领域,GAN可以通过对复杂疾病的诊断学习,帮助医生在以后的病例中快速对病人做出全面、科学的诊断。警察可以借助GAN从监控視频中将分割图还原成真实照片,将黑白图变成彩色图,对犯罪嫌疑人进行精准的识别,让犯罪嫌疑人无处遁形,我们期待GAN给我们带来更多的应用!