AI“傀儡术”或再掀视频伪造热潮

如今，视频内容创作的门槛是越来越低了，DeepFake就是个典型例子。只需要参考人脸的数据和人物视频素材，DeepFake就可以方便地将视频中的人物的脸部换成参考人脸的脸部。随着恶搞视频的增加，DeepFake已经受到了人们的抵制，学术界也开发出越来越多的方法用于检测DeepFake视频。但是，伪造视频还有另一种思路，不在脸上动手脚，而是在语音上动歪脑筋。

在学术界中，人们开始关注另一项转换技术，就是将视频里的面部唇形校正以匹配给定音频。也就是说，输入一段视频和音频，就能让视频里的人物按照音频来说话，从而让两者融为一体，就像有一个傀儡师在背后操纵着视频中的人物说话一样。当然，并不是说这项技术的开发是带着恶意的，只是这项技术难免会被恶意利用。但它才刚刚起步，我们就抱着好玩的心态来体验体验吧，先请看官打开以下这个视频。是不是很魔性？

但这个视频只是今天的主角Wav2Lip的鬼畜应用示例，而且这个视频不能完全展现Wav2Lip的全部优势。这里先列举一些相关研究。在《Obamanet: Photo-realistic lip-sync from text》中，研究者仅用几个小时就学会了从语音表示到唇形的转换，其中首先根据语音生成唇形关键点，再根据关键点生成逼真的唇形。

《Text-based editing of talking-head video》则直接从语音表示中生成图像，并且生成质量很高。而《Towards Automatic Face-to-Face Translation》针对数千种身份和声音进行了训练，可以在任何声音中的任何身份的单个静态图像上生成准确的唇部运动。

但是，如果要将语音植入用于诸如翻译演讲/电视连续剧之类的视频中，AI模型就需要对动态的、不受约束的脸部和嘴唇动作进行识别和转换，这就增加了转换的难度。实际上，适用于静态图像转换的模型无法准确地转换视频中的唇形，会导致不同步现象。对于观者而言，0.05-0.1秒的不同步就能被察觉出来，就像我们在看电视剧的时候，如果声音和人物唇形稍微对不上，就会极大影响观感。

类似地，在体验VR应用时，如果动作和视觉内容无法匹配，人也会产生眩晕感。日常的视频中包含快速变化的姿势、比例和光照，并且生成的面部结果还必须无缝融合到原始目标视频中。因此，鉴于所允许的误差很小，这个问题非常有挑战性。何况，我们的目标是开发独立于说话者的方法。

在近期由ACM Multimedia 2020接收的论文《Wav2Lip: Accurately Lip-sync Videos to Any Speech》中，研究者开发出了能应对这个难题的AI模型，我们来看看效果：视频的第一个片段是原始素材，第二个片段是音频源，第三个片段是将音频源与原始素材融合后的效果，可以看出，希特勒的唇形被修改的很自然。

相对于之前的模型，Wav2Lip模型在动态的有声面部视频中产生了更加准确的唇形同步。通过检查现有的独立于说话者的语音到唇形生成方法，研究者发现，由于仅使用重建损失或较弱的唇形同步判别器，这些模型没有对错误的唇形进行适当的惩罚。于是，研究者采用了唇形同步判别器，以强制生成器持续产生准确而逼真的唇部运动。

Wav2Lip可以将任意说话的面部视频与任意语音进行唇形同步，而且据研究者介绍，Wav2Lip是第一个独立于说话者的高质量模型。人工评估表明，与现有方法相比，Wav2Lip生成的视频在90％以上的时间中优于现有方法。此外，Wav2Lip还可以将英语在线讲座视频或者电影与其他语言的配音同步，使它们看起来更有趣。

由于长年观看翻译视频，我们或许已经习惯了人物口型和字幕语言的不一致，但如果能将人物口型也校正过来，或许会有不一样的体验。研究者表示，他们的模型几乎是万能的，适用于任何人脸、任何语音、任何语言，对任意视频都能达到很高的准确率，可以无缝地与原始视频融合，还可以用于转换动画人脸，并且导入合成语音也是可行的。至于真实效果如何，还请读者自行先去项目网页试试，或者直接上手开源代码。

Wav2Lip通过向“已经训练有素的口型同步专家”学习来生成准确的口型同步，其模型架构如下图所示。与之前仅使用重建损失或在GAN设置中训练判别器的方法不同，在Wav2Lip中，研究者使用预先训练好的判别器，该判别器在检测口型同步错误上已经非常准确。此外，研究者还采用了视觉质量判别器来改善视觉质量和同步准确率。

目前，研究者在项目网页中提供了交互演示，用户可以自行上传视频体验Wav2Lip的效果，不过只允许上传最长20秒的视频和音频。如果使用开源代码，则可以尝试对更高分辨率或更长的视频进行唇形同步。研究者表示，Wav2Lip模型具有广泛的适用性，适用于任何身份和任何语言，他们担心这项技术会被滥用。尽管如此，他们还是开源了代码。研究者强烈建议，使用Wav2Lip的代码和模型创建的任何内容都必须标明是合成的。