如今的造假技术，离生成逼真、带音频的领导人视频一步之遥

以下文章来源于Nature自然科研，作者Elizabeth Gibney。原文以The scientist who spots fake videos为标题，发布在2017年10月6日的《自然》新闻问答上。原文作者：Elizabeth Gibney。

从1869年Nature创刊以来，我们一直关注全球科研进展，通过自然科研品牌，我们提供一系列专门服务于科研共同体的优质产品与服务，涵盖生命科学、物理、化学和应用科学，包括了期刊、数据库和研究者服务等。Hany Farid讨论如何检测图像造假以及造假者日益高明的造假手段。

Hany Farid是美国达特茅斯学院的一名计算机科学家，擅长检测图片和视频造假。他的客户包括大学、媒体组织和法院，他说图片造假不仅变得越来越频繁，也变得越来越高明。他向《自然》讲述了他与造假者之间你追我赶的“军备竞赛”。

鉴定造假图片的第一步是什么？一种简单而又有效的做法是反向图片搜索。你把图片放到Google Image Search或TinEye里面进行搜索，它们会显示该图片还在其他哪些地方出现过。哥伦比亚大学的一个项目则将这个做法提高到新的高度，他们开始查找目标图片中从其它图片改换而来的部分。

一般而言，如果一张图片是假的，我们会考虑哪些图案、几何特征、颜色或结构会被破坏。例如，如果有人向一个场景里添加了一个物体，我们知道他们添加的阴影一般是错的。2012年，一段名为“Golden Eagle Snatches Kid”（“老鹰抓孩子”）的视频被疯传，它是我最喜欢的案例之一。我们只用了15分钟就发现了阴影的不协调之处：老鹰和小孩都是电脑制作而成的。

如果造假手段非常隐蔽怎么办？我们有大量分析手段可用。在彩色照片中，每一个像素都需要三个值——分别对应该点的红色、绿色和蓝色的分量。但是，大部分相机每个像素只记录一种颜色，并通过采用该像素周围像素的均值来填补空白。这意味着对于一张照片中的任何给定颜色来说，每一个缺失的像素都与其周围像素存在特定的关联，如果我们添加某物或进行修饰，这种关联就会被破坏，我们就能检测出来。

另一种技术叫JPEG压缩。几乎所有图片都采用JPEG格式存储，它们在保存的时候会损失部分信息。而每一种相机在存储时损失的信息量千差万别。如果使用Photoshop打开JPEG文件，然后再保存，最终一定会和原始文件存在细微差别，这个是我们可以检测出来的。我希望我可以快速鉴别你上传的任意图片的真伪；不过，目前鉴定仍然非常困难，需要专业知识才能发现其中不协调的部分。

谁使用你的数字取证服务？我服务的组织包括美联社、路透社和《纽约时报》。全球专攻数字取证的专业人员屈指可数，因此工作范围有限，也就是说你只能分析一些真正举足轻重的图片。不过，有关方面正在为扩大分析范围而努力。去年，美国国防高级研究计划局（DARPA）启动了一个大型项目，我也参与其中。他们尝试在未来五年里创建一个系统，让你可以一天分析成千上万张图片。这是一个雄心勃勃的项目。

我也为法庭提供大量服务。例如，儿童色情作品在美国是非法的，但是电脑生成的儿童色情作品受美国宪法第一修正案“言论自由”条款的保护。如果有人因此被捕，他们可能说图片不是真的，那么我就需要证明这一点。我几乎每天都会收到有关图片骗局的电子邮件。

你的技术会应用在科学论文上吗？我曾经有几次受雇于大学，调查学校内部的学术不端行为。不久前我去美国研究诚信办公室，他们问我“我们怎样才能获得自动化工具？

”事实上，我们还未达到自动化程度。不过，创建一种每天检测几十张而非上百万张照片的半自动化流程还是可能的，它可采用诸如克隆检测等工具，查看图片中的某些部分是否是从别处复制粘贴而来的。我和同事都在考虑这件事，它虽然小，但却是DARPA项目的一个重要组成部分。

请谈谈假视频吧？现在，研究人员能够将名人镜头剪到一起制成视频，让他们看起来在说些他们实际上从未说过的话，比如奥巴马的一些视频。研究人员还能使用机器学习技术，尤其是可以学习生成虚假内容的生成对抗网络（GAN），制作虚假图片或短视频。这让一个生产虚假内容的网站与一个尝试鉴定真伪的“分类器”网站竞争，使造假网站在这个过程中快速增强。

我目睹了一流的造假技术，对此我感到非常担忧。在5-10年内，这些技术将达到一流水准。到达一定阶段后，我们将能够生成逼真的、包含音频的世界领导人视频，这令人非常不安。我想说数字取证技术已经落后于视频造假技术了。

如何检测造假视频？视频中也存在类似于JPEG压缩的特点，但是更难检测，因为视频采用一个更为复杂的版本。因此，可以采用机器学习技术来鉴别视频真假。不过，我们用以鉴定视频的方法和鉴定图片的方法相似：通过观察，发现电脑生成内容所缺乏的录制视频原本存在的瑕疵。电脑生成内容总是太过完美。因此，我们要考察的一点是：我们可以看到在现实世界中存在的统计特征和几何特征吗？

另外一种技术来自William Freeman及其MIT同事的杰出研究：如果视频中的人发生了极微小的变化，通过放大，你可以看到与脉搏率对应的人脸颜色的细微变化。这样，你就可以将真人和电脑生成的人区别开来。

机器学习算法不能学习掌握这些特征吗？原则上也许可以。但是在实际操作中，这些算法只有有限的时间和训练数据，很难控制神经网络会采用哪些特征来鉴别视频真伪。GAN只是尝试欺骗训练它的分类器网站。这不能保证它将学习到可以区别图片或视频真伪的所有特征，也不能保证它能糊弄别的分类器网站。

我的对手必须采用我使用的所有鉴定技术，训练神经网络绕过这些方面的分析：例如添加脉搏。这意味着我给他们的工作增加了难度。这就是一场“军备竞赛”。在我们加速发展的同时，我们的对手也在开发更加精密的技术来增强音频、图片和视频。只有当业余人员无法完美造假，这场竞赛才会终结。你不断增加造假难度，他们造假的时间和技能要求就越高，于是被抓的风险也越大。