硅谷一线观察：Sora小秀肌肉惊艳，但还不能理解物理世界

近期，OpenAI推出了名为Sora的文生视频模型，其惊艳效果引发关注和热议，在国内的人工智能（AI）领域更是掀起了基准大模型讨论的热潮。目前，Sora可一次性生成高质量的1分钟视频，不仅在视频长度和质量上都超越了传统模型，视觉效果上达到了令人难以置信的真实，展示出人工智能在理解和创造动态影像方面的巨大潜力。

为了更好地帮助了解Sora背后的科学原理和影响，以及在AI科技发展和产业中的位置，我们和美国硅谷从事人工智能研究的科学家田渊栋博士聊了聊。田渊栋博士毕业于卡耐基梅隆大学机器人系，曾在谷歌无人驾驶汽车项目组工作，2017年至今在Meta AI Research（FAIR）担任研究科学家和高级经理，在深度学习领域有着丰富的经验，对于人工智能领域的前沿工作非常熟悉。

在一个多小时的访谈中，田渊栋带来了一线硅谷科学家的观察和思考，许多洞察值得一读，尤其对文生视频模型的现状与未来的解读，以及中美人工智能投资与创业生态的比较。以下为访谈要点，出于简洁和清晰，文字有编辑。

Sora采用了Transformer架构加扩散模型进行视频生成，它的做法是将输入的三维视频先逐帧转换为潜在的Token表示，形成一个Token序列，然后用Diffusion Transformer结构，从随机噪音开始，逐渐生成整个视频序列的所有帧的Latent Tokens表示。这种做法的好处是它并不是逐帧预测，而是一次性生成整个视频序列，这种方法很有意思，现在看起来能保证整个视频长程的一致性。

Sora的视频生成过程借鉴了扩散模型在图像生成领域的思路。扩散模型能够通过逐步去噪的方式，从纯噪音图像开始，通过逐步去噪并引入条件信息，让图像向着指定方向进行演化，一步步生成清晰的目标图像。视频实际上就是三维的图片，通过将视频视为三维的图像数据，Sora采用类似的去噪过程逐渐生成整个视频。每一步生成的信息取决于给出的条件信息也就是文本描述(prompt)，文本描述不一样，视频的内容和结构也不一样。