论文部分内容阅读
摘 要:近年来人工智能发展非常迅速,有不少人工智能领域的科研成果成功“出圈”,走进大众视野。其中一项人脸生成技术令全世界感到震惊,因为仅靠人的眼睛已经无法明显区分由该技术生成的照片与真实照片之间的差异。在惊讶之余也有不少人希望了解这项技术具体是如何实现的,对此,本文将作简要分析。
关键词:人工智能;人工神经网络;StyleGAN
2019年初,网站“这个人不存在”一经发布便火遍全网。每次进入网站,页面会展示一张面带微笑的人脸照片。但神奇的是,图片上看起来如此逼真的人脸,其实并不存在于这个世界。这些人脸是AI,即人工智能生成的。网站的创建者Philip Wang在社交网站上表明,他希望通过这种方式提高大众对一项最新研究成果StyleGAN的认知。StyleGAN是NVIDIA于2018年发布的新项目,归属于人工智能领域的人工神经网络范畴。对于这项技术具体是怎么实现的,应该从源头讲起。
一、人工神经网络
当前的人工智能分为三个学派。一是符号主义,符号主义认为人工智能起源于数学领域。二是连接主义,原理是模拟大脑的神经网络结构。三是行为主义,主要原理是控制加感知,通过模拟生物的行为来实现人工智能。
而我们要说的人工神经网络则归属于连接主义。它类似大脑,由特定结构的神经元及连接方法构成。为了模拟神经元之间信息的传递,每个基本处理单元都被合适的变换函数控制其状态。网络包含多个层次,这些层被归类为三个种类,即输入层,隐藏层,输出层。
由于人工智神经网络具有运算速度高,适应性强,容错力强和自组织的优良特性,使得深度学习这个新的研究方向诞生。相比人工神经网络,深度学习算法强调的是网络结构的深度。目前经典的深度学习模型包括自动编码器神经网络,深度信任神经网络和卷积神经网络等。卷积神经网络可以算是人工智能在图像识别应用领域最主流的算法之一,在大数据的支持下,卷积神经网络可以对大批图像进行准确分类。
二、StyleGAN
(一)StyleGAN的基本模型
StyleGAN是基于生成对抗网络研发的。生成对抗网络是无指导的卷积神经网络中最具前景的方法之一。它是lanJ.Goodfellow等人在2014年提出的通过对抗过程预计生成模型的新型框架。对抗过程即为GANS的核心,由生成模型和判别模型组成。生成模型,指在给出的样本上,使用某个模型来生成新的数据。判别模型则有一个判断标准,或者说判断界限,通过这个界限去区分样本。简单来说,GANs中生成模型用于尽可能地创造一张在人类角度看来是真实的图片,而判断模型的任务是区分真实和伪造的图片。通过不断博弈,若生成模型成功“欺骗”了判别模型,那么我们的目的就达到了。
单从原理上讲,生成对抗网络的生成模型和判别模型并没有什么限制,我们可以使用任何生成模型和判别模型去实现,生成对抗网络主要是提供了一种框架。正因为如此,生成对抗网络目前已衍生出上百种模型,在这些模型的基础上,又产生了许多变种,使得其功能更完善,网络结构更稳定。
(二)StyleGAN的前身
作为GANs的衍生种类,ProGAN希望生成的图像有超高的分辨率。若要达此目的,GANs的网络结构会非常多,从而造成训练这样一个网络既困难又费时。为了解决这一阻碍,ProGAN的思路是,最初训练的时候,使网络的层数较少,这样我们非常容易就能生成图片,但图片的分辨率自然会很低。在训练过程中,逐步加深网络层数,随着训练次数的增加,生成的图片也会越来越高清,最终甚至能生成1024*1024分辨率的图片。通过这样的方法,ProGAN的学习速度比传统的GANs高出2到6倍。
由于ProGAN每次增加层数时,开发者没有对其增加控制,而是完全由模型直接生成。我们无法得知在此过程中模型具体学习到了什么。训练时,样本规模大,特征量多,且特征之间是互相关联的,因此ProGAN控制生成具有特定特征图像的能力非常有限。
(三)StyleGAN的改进
若我们希望网络能生成我们具体想要的图片,就需要对图片生成过程中网络学习到的特征加以控制。StyleGAN便是在此基础上做了进一步的改进。那么,StyleGAN具体做了什么呢?
StyleGAN发现,如果使用较好的方法,是可以实现特征的控制的。由于层数的不同生成图片的分辨率也不同,其中的特征也伴随分别率的从低到高由粗糙到高品质,若以此分类,可以将这些特征分为三个种类。最低等的粗糙特征主要是人物姿势,发型轮廓和面部表情等;中等的特征则是五官的形状,发型等;而高品质的特征则是五官的细微特征等。
首先,为了减少特征之间的关联性,增加映射网络,将输入向量重新编码为中间向量,通过中间向量的属性来控制特征,输入变量用常量值代替。然后通过自适应实例标准化模块将中间向量传输到生成的图像中。为了使生成的图像不失随机性,StyleGAN还将如雀斑,痣,法令纹等更细微的特征作为随机噪声添加到输入向量中。另外,StyleGAN还使用了样式混合,截取中間向量和微调网络的超参数等技巧使生成的图像更逼真。
三、总结
目前这类人脸生成网站功能愈加完善,从最初只能生成欧美的成人面部,到现在衍生出“高颜值”生成,“动漫人脸”生成和“亚洲人”生成等类型,甚至可以定制生成的图片。NVIDIA官方已经将StyleGAN的代码开源,感兴趣的朋友可以在官方网站下载,并在Linux及Windows上运行。对于该技术,有少数人表达了他们的焦虑,如今人工智能生成的图片足够以假乱真了,怎么避免有不怀好意的人用此技术做些违法犯罪的事情?好在目前已有学者在研究深度判别伪造图片的技术,同时我相信政府也会出台相应政策规范此类技术的发展。
参考文献
[1]蔡自兴等著.人工智能及其应用[M].北京:清华大学出版社.2016.
[2]陈先昌.基于卷积神经网络的深度学习算法与应用研究[D].浙江工商大学,2014.
[3]王坤峰,苟超,段艳杰,林懿伦,郑心湖,王飞跃.生成式对抗网络GAN的研究进展与展望[J].自动化学报,2017,43(03):321-332.
作者简介
阳雪(1998—),女,汉族,四川广安,本科,研究方向:计算机。
杨博(1999—),男,汉族,四川广元,本科,研究方向:计算机。
关键词:人工智能;人工神经网络;StyleGAN
2019年初,网站“这个人不存在”一经发布便火遍全网。每次进入网站,页面会展示一张面带微笑的人脸照片。但神奇的是,图片上看起来如此逼真的人脸,其实并不存在于这个世界。这些人脸是AI,即人工智能生成的。网站的创建者Philip Wang在社交网站上表明,他希望通过这种方式提高大众对一项最新研究成果StyleGAN的认知。StyleGAN是NVIDIA于2018年发布的新项目,归属于人工智能领域的人工神经网络范畴。对于这项技术具体是怎么实现的,应该从源头讲起。
一、人工神经网络
当前的人工智能分为三个学派。一是符号主义,符号主义认为人工智能起源于数学领域。二是连接主义,原理是模拟大脑的神经网络结构。三是行为主义,主要原理是控制加感知,通过模拟生物的行为来实现人工智能。
而我们要说的人工神经网络则归属于连接主义。它类似大脑,由特定结构的神经元及连接方法构成。为了模拟神经元之间信息的传递,每个基本处理单元都被合适的变换函数控制其状态。网络包含多个层次,这些层被归类为三个种类,即输入层,隐藏层,输出层。
由于人工智神经网络具有运算速度高,适应性强,容错力强和自组织的优良特性,使得深度学习这个新的研究方向诞生。相比人工神经网络,深度学习算法强调的是网络结构的深度。目前经典的深度学习模型包括自动编码器神经网络,深度信任神经网络和卷积神经网络等。卷积神经网络可以算是人工智能在图像识别应用领域最主流的算法之一,在大数据的支持下,卷积神经网络可以对大批图像进行准确分类。
二、StyleGAN
(一)StyleGAN的基本模型
StyleGAN是基于生成对抗网络研发的。生成对抗网络是无指导的卷积神经网络中最具前景的方法之一。它是lanJ.Goodfellow等人在2014年提出的通过对抗过程预计生成模型的新型框架。对抗过程即为GANS的核心,由生成模型和判别模型组成。生成模型,指在给出的样本上,使用某个模型来生成新的数据。判别模型则有一个判断标准,或者说判断界限,通过这个界限去区分样本。简单来说,GANs中生成模型用于尽可能地创造一张在人类角度看来是真实的图片,而判断模型的任务是区分真实和伪造的图片。通过不断博弈,若生成模型成功“欺骗”了判别模型,那么我们的目的就达到了。
单从原理上讲,生成对抗网络的生成模型和判别模型并没有什么限制,我们可以使用任何生成模型和判别模型去实现,生成对抗网络主要是提供了一种框架。正因为如此,生成对抗网络目前已衍生出上百种模型,在这些模型的基础上,又产生了许多变种,使得其功能更完善,网络结构更稳定。
(二)StyleGAN的前身
作为GANs的衍生种类,ProGAN希望生成的图像有超高的分辨率。若要达此目的,GANs的网络结构会非常多,从而造成训练这样一个网络既困难又费时。为了解决这一阻碍,ProGAN的思路是,最初训练的时候,使网络的层数较少,这样我们非常容易就能生成图片,但图片的分辨率自然会很低。在训练过程中,逐步加深网络层数,随着训练次数的增加,生成的图片也会越来越高清,最终甚至能生成1024*1024分辨率的图片。通过这样的方法,ProGAN的学习速度比传统的GANs高出2到6倍。
由于ProGAN每次增加层数时,开发者没有对其增加控制,而是完全由模型直接生成。我们无法得知在此过程中模型具体学习到了什么。训练时,样本规模大,特征量多,且特征之间是互相关联的,因此ProGAN控制生成具有特定特征图像的能力非常有限。
(三)StyleGAN的改进
若我们希望网络能生成我们具体想要的图片,就需要对图片生成过程中网络学习到的特征加以控制。StyleGAN便是在此基础上做了进一步的改进。那么,StyleGAN具体做了什么呢?
StyleGAN发现,如果使用较好的方法,是可以实现特征的控制的。由于层数的不同生成图片的分辨率也不同,其中的特征也伴随分别率的从低到高由粗糙到高品质,若以此分类,可以将这些特征分为三个种类。最低等的粗糙特征主要是人物姿势,发型轮廓和面部表情等;中等的特征则是五官的形状,发型等;而高品质的特征则是五官的细微特征等。
首先,为了减少特征之间的关联性,增加映射网络,将输入向量重新编码为中间向量,通过中间向量的属性来控制特征,输入变量用常量值代替。然后通过自适应实例标准化模块将中间向量传输到生成的图像中。为了使生成的图像不失随机性,StyleGAN还将如雀斑,痣,法令纹等更细微的特征作为随机噪声添加到输入向量中。另外,StyleGAN还使用了样式混合,截取中間向量和微调网络的超参数等技巧使生成的图像更逼真。
三、总结
目前这类人脸生成网站功能愈加完善,从最初只能生成欧美的成人面部,到现在衍生出“高颜值”生成,“动漫人脸”生成和“亚洲人”生成等类型,甚至可以定制生成的图片。NVIDIA官方已经将StyleGAN的代码开源,感兴趣的朋友可以在官方网站下载,并在Linux及Windows上运行。对于该技术,有少数人表达了他们的焦虑,如今人工智能生成的图片足够以假乱真了,怎么避免有不怀好意的人用此技术做些违法犯罪的事情?好在目前已有学者在研究深度判别伪造图片的技术,同时我相信政府也会出台相应政策规范此类技术的发展。
参考文献
[1]蔡自兴等著.人工智能及其应用[M].北京:清华大学出版社.2016.
[2]陈先昌.基于卷积神经网络的深度学习算法与应用研究[D].浙江工商大学,2014.
[3]王坤峰,苟超,段艳杰,林懿伦,郑心湖,王飞跃.生成式对抗网络GAN的研究进展与展望[J].自动化学报,2017,43(03):321-332.
作者简介
阳雪(1998—),女,汉族,四川广安,本科,研究方向:计算机。
杨博(1999—),男,汉族,四川广元,本科,研究方向:计算机。