⾕歌“⽂⽣图”新研究：⼀张⼈脸、⼀段prompt，⽆需微调，⼏秒钟出图

在⼀项最新研究中，来⾃⾕歌的研究⼈员提出了⼀种简单、快速的“⽂⽣图”⽅法——Face0。据介绍，该⽅法可以在采样时间内将⽂本到图像的⽣成模型即时化，⽆需任何优化程序，如微调或反转。研究⼈员⽤包括⼈脸的嵌⼊来增强注释图像的数据集，并在增强的数据集上训练⼀个图像⽣成模型。训练完成后，其在推理时间上与基础模型基本相同，能够在⼏秒钟内⽣成图像，且只需给定⼀个⽤户提供的⼈脸图像和⼀个提示。

该⽅法不仅⾮常简单，速度极快，也为基础模型配备了新的功能，如通过⽂本或直接操作输⼊的⼈脸嵌⼊来控制⽣成的图像。此外，当使⽤⼀个固定的随机向量⽽不是⽤户提供的图像的⼈脸嵌⼊时，该⽅法基本上解决了跨图像的⼀致性⻆⾊⽣成问题。最后，虽然还需要进⼀步的研究，但研究⼈员表示，将模型的⽂本偏⻅与它对脸部的偏⻅解耦，可能是朝着在未来的⽂本到图像模型中减轻偏⻅迈出的重要⼀步。