近期,OpenAI推出了名为Sora的文生视频模型,其惊艳效果引发关注和热议,在国内的人工智能(AI)领域更是掀起了基准大模型讨论的热潮。目前,Sora可一次性生成高质量的1分钟视频,不仅在视频长度和质量上都超越了传统模型,视觉效果上达到了令人难以置信的真实,展示出人工智能在理解和创造动态影像方面的巨大潜力。
为了更好地帮助了解Sora背后的科学原理和影响,以及在AI科技发展和产业中的位置,我们和美国硅谷从事人工智能研究的科学家田渊栋博士聊了聊。田渊栋博士毕业于卡耐基梅隆大学机器人系,曾在谷歌无人驾驶汽车项目组工作,2017年至今在Meta AI Research(FAIR)担任研究科学家和高级经理,在深度学习领域有着丰富的经验,对于人工智能领域的前沿工作非常熟悉。
在一个多小时的访谈中,田渊栋带来了一线硅谷科学家的观察和思考,许多洞察值得一读,尤其对文生视频模型的现状与未来的解读,以及中美人工智能投资与创业生态的比较。以下为访谈要点,出于简洁和清晰,文字有编辑。
Sora采用了Transformer架构加扩散模型进行视频生成,它的做法是将输入的三维视频先逐帧转换为潜在的Token表示,形成一个Token序列,然后用Diffusion Transformer结构,从随机噪音开始,逐渐生成整个视频序列的所有帧的Latent Tokens表示。这种做法的好处是它并不是逐帧预测,而是一次性生成整个视频序列,这种方法很有意思,现在看起来能保证整个视频长程的一致性。
Sora的视频生成过程借鉴了扩散模型在图像生成领域的思路。扩散模型能够通过逐步去噪的方式,从纯噪音图像开始,通过逐步去噪并引入条件信息,让图像向着指定方向进行演化,一步步生成清晰的目标图像。视频实际上就是三维的图片,通过将视频视为三维的图像数据,Sora采用类似的去噪过程逐渐生成整个视频。每一步生成的信息取决于给出的条件信息也就是文本描述(prompt),文本描述不一样,视频的内容和结构也不一样。