AI vs AI：以假乱真的深度伪造，如何识破？丨智言智语

近年来，深度生成模型的飞速发展催生了Deepfake、人脸融合等一系列成熟的人脸深度伪造技术。随着Zao等娱乐应用的推出，人脸伪造技术的成本快速降低并得到迅速推广。人脸伪造技术潜在的滥用隐患和相应的检测技术引发了社会各界的广泛讨论。逼真的伪造图像，使人们很难仅凭RGB图像判断真伪。

一些相关研究利用图像频域分析技术，发现伪造过程中的上采样会导致图像频谱中某些部分被特定的重复模式所替代；同时，他们认为现有的伪造算法只关注图像的像素级重建而很难兼顾对于人脸图像各组成成分的合理重建。因此，研究人员提出，在对伪造图像进行某种方式的分解之后，所得到的解构成分中应包含更多有助于伪造检测的线索，并基于此提出利用频域信号分解的方法找到包含伪造线索最多的频段以检测人脸伪造图像。

然而，由于拍摄器材、拍摄环境、压缩算法、存储方式等的不同，不同数据之间存在巨大的分布偏差，很难事先指定好包含最多伪造痕迹的频段。

为解决该难题，中国科学院自动化研究所朱翔昱副研究员和雷震研究员等人提出了基于三维解构的人脸伪造检测方法，通过对人脸图像进行图形学分解，找到包含最多伪造线索的图形学分量，提升了模型对多种伪造方式的鲁棒性。

根据计算机图形学对人脸成像的相关研究，我们将一张人脸图像视为其对应的三维人脸结构、纹理和光照环境交互的产物，通过三维可变模型和计算机图形学的渲染技术模拟一张人脸图像的生成过程，并将人脸解构为5个组成部分：3D人脸结构（3D geometry）、共有纹理（common texture），指人类群体共有的纹理模式、个性纹理（identity texture），指某一人脸的特定纹理模式、环境光照（ambient light）、直射光照（direct light）。

通过观察目前主流的人脸伪造数据，伪造数据中很少存在不合理的人脸拓扑结构和奇异肤色，因此可以认为目前的伪造方法能够有效重建人脸的3D结构、共有纹理和环境光照，这些分量在伪造检测时可以不再考虑。然而，考虑到不同人脸之间明显而复杂的个性纹理差异，现有伪造方法很难实现对这一成分的完美重建。同时，很多在强直射光环境下的伪造图像中也存在明显的伪造痕迹。

因此，个性纹理分量和直射光分量蕴含丰富的伪造线索，是伪造检测的两个重要成分。

基于这些假设，研究人员设计了一系列实验来研究和验证对5种人脸成分的合理选择。通过这一系列剥离实验，确定个性纹理和直射光照的组合更适合用于人脸伪造检测，并将这一组合称为人脸细节（facial detail）。

在深度学习模型设计方面，基于多模态学习的思想，团队提出一种双流网络Forgery-Detection-with-Facial-Detail Net（FD2Net），对人脸图像和人脸细节两种模态中隐含的伪造痕迹同时进行挖掘，并引入监督式注意力模型指导检测网络关注人脸细节中的伪造痕迹。

该方法在人脸伪造检测数据库Faceforensics++（FF++）、The DeepFake Detection dataset（DFD）和Deepfake detection challenge dataset (DFDC)上均取得较好的结果。