在⼀项最新研究中,来⾃⾕歌的研究⼈员提出了⼀种简单、快速的“⽂⽣图”⽅法——Face0。据介绍,该⽅法可以在采样时间内将⽂本到图像的⽣成模型即时化,⽆需任何优化程序,如微调或反转。研究⼈员⽤包括⼈脸的嵌⼊来增强注释图像的数据集,并在增强的数据集上训练⼀个图像⽣成模型。训练完成后,其在推理时间上与基础模型基本相同,能够在⼏秒钟内⽣成图像,且只需给定⼀个⽤户提供的⼈脸图像和⼀个提示。
该⽅法不仅⾮常简单,速度极快,也为基础模型配备了新的功能,如通过⽂本或直接操作输⼊的⼈脸嵌⼊来控制⽣成的图像。此外,当使⽤⼀个固定的随机向量⽽不是⽤户提供的图像的⼈脸嵌⼊时,该⽅法基本上解决了跨图像的⼀致性⻆⾊⽣成问题。最后,虽然还需要进⼀步的研究,但研究⼈员表示,将模型的⽂本偏⻅与它对脸部的偏⻅解耦,可能是朝着在未来的⽂本到图像模型中减轻偏⻅迈出的重要⼀步。