论文部分内容阅读
如今,图像生成技术获得了快速发展,假脸生成技术也应运而生。其中具有代表的技术有Deepfake、Face2Face[1]、NeuralTextures[2]等等。人们可以利用这些模型完成图像或视频中人脸的互换,甚至是生成一个不存在的人脸。这些技术主要包含三个步骤——人脸定位、人脸转换和人脸拼接。目前,人脸定位技术已经发展地十分成熟,一般的人脸定位算法主要是找到人脸上的特征点,比如鼻子、嘴巴、下巴以及眉毛等,通过抽取这些特征可以知道人脸的器官分布,完成对人脸的定位。例如,通过调用dlib库以及OpenCV的包来进提取这些特征点,也可以利用深度神经网络如CNN模型来实现定位。人脸转换主要包括对抗生成模型(GAN)和变分自编码器(VAE)等生成模型,通过训练对应的编码解码器来完成两个人之间的人脸互换。例如,VAE通过无监督的方式将人脸图像压缩成向量,再将这个向量恢复成人脸图像,如果对人A的人脸图像进行编码,再用人B的解码器对编码后的图像进行解码,就可以使B的人脸图像中人脸表情变成A的表情。而GAN则是抽取人脸的特征点,生成器用这些特征生成目标人脸图像,通过训练判别器使得判别器不能区分生成人脸和真实人脸,完成人脸的生成。Deepfake等深度学习技术愈演愈烈的同时,也带来了巨大的隐患。不得不承认换脸是人们滥用深度学习的后果。在此之前,可以在社交媒体上大胆的发布照片,例如朋友圈,微博,Facebook等,并且人们对网络新闻中的视频和图像也是较信服的。而自从这些换脸技术开源之后,可以发现有人通过换脸技术处理并发布一些虚假视频,更有甚者,利用收集到的人脸图像生成他人人脸的色情影片。因此,对抗Deepfake技术是同样重要。目前已有很多文章聚焦于反Deepfake技术领域,主流的检测方法是在真实图像和和伪造图像中训练一个二分类模型,来判别测试图像是否是生成的。这样做的缺点是模型对数据集存在依赖性,分类器无法判别对于用不同生成模型生成的数据集。卷积神经网络(CNN)通常会忽略掉图像中的传统特征,比如噪音等,使得结果表现并不是很好。针对以上存在的问题,本文主要是对主流方法做出改进来进行人脸篡改检测实验,注意到换脸之后的轮廓等边缘信息存在噪音,可以通过向深度神经网络中添加传统特征来改善结果。基于上述思想,本文主要实验工作包含如下:1.基于Xception[3]训练了一个CNN分类模型,用于对假脸以及真实人脸的判别,分别从全局图像以及人脸ROI区域进行测试。2.利用FaceForensics++中[4]模型对Deepfake Detection Challenge数据集进行测试。3.基于传统特征方法,采用JPEG压缩率特征,BAG特征以及噪音特征,进行多组对比,分析不同特征对实验结果的影响。通过上述实验,可以得到以下结论:1.目前人脸篡改检测模型对数据集具有较大的依赖性,更换数据集后,FaceForensics++中的方法表现较差,实验结果更加接近于随机预测,对新的数据集没有很好地参考价值。2.对模型进行微调并重新训练后,相较于之前实验,在一定程度上有明显改善。实验证明了,采用中值预测方法,实验结果最好。具体预测精确率为0.900左右,召回率0.85左右,整体AUC为0.748。3.在2的基础上,引入了传统特征进行预测,其中将BAG特征与ELA特征联合实验表现最好。采用双路预测方法,在之前实验的基础上实验准确率提高了3%,AUC提高了5%,说明在一定程度上,传统特征对于此类问题是有效的。